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Ej 2012 年 回归 校园 开始 电信 与 互联 网 大 数据 分 析 科研 生涯 ,我 与 Hadoop 那 头 黄 
色 小 象 就 结 下 了 不 解 之 缘 。 感谢 Google 的 论文 Yahoo 的 资助 .Doug Cutting 无 与 伦比 
的 聪明 才智 ,以 及 Hadoop 开源 社区 无 私 奉献 的 参与 者 ,让 成 千 上 万 跟 我 们 一 样 的 中 小 
开发 者 团队 拥有 了 低 成 本 处 理 大 规模 数据 的 能 力 。HDFS , MapReduce „Pig , Hive , HBase 
这 些 技术 组 件 ,帮助 我 们 完成 了 一 个 又 一 个 TB EE PB 级 数据 集 的 分 析 任 务 。 那 头 可 
爱 的 黄色 小 象 ,陪伴 我 度 过 了 一 个 又 一 个 美好 的 日 子 。 多 么 希望 这 种 只 用 一 个 技术 族 
就 能 解决 各 种 大 数据 处 理 问题 的 美好 日 子 能 一 直 持 续 下 去 ,相信 这 也 是 很 多 开发 者 梦 
襟 以 求 的 理想 国度 。 然 而 ,梦想 终归 是 梦想 。 在 两 年 前 的 某 一 天 ,无 意 中 从 网 络 上 的 
一 篇 技术 文章 中 看 到 了 Spark 这 一 新 兴 技 术 , 文 中 宣称 Spark 性 能 和 功能 均 优 于 
Hadoop。 将 信 将 疑 的 我 按照 文章 中 的 线索 找到 了 Spark 官网 ,下 载 解压 后 经 过 短暂 试 
用 ,我 就 被 Spark 的 简洁 、 高 效 、 灵 活 的 特性 彻底 迷 住 了 。 从 那 时 起 我 就 知道 , Hadoop, 
我 心目 中 大 数据 处 理 王者 技术 上 的 真正 挑战 者 到 来 了 。Spark 以 分 布 式 内 存 对 象 架构 
为 基础 ,以 RDD 转换 模式 为 核心 ,并 辅 以 丰富 的 RDD 算 子 ,不 仅 解决 了 大 数据 处 理 迭 
代 任务 的 性 能 问题 ,还 将 开发 者 从 简陋 的 Map/Reduce 编程 模式 中 解放 出 来 ,以 更 加 灵 
活 的 方式 控制 数据 的 计算 过 程 ,并 激发 无 穷 的 创意 。 因 此 ,我 们 的 团队 逐渐 将 数据 处 
理 技术 栈 由 Hadoop 转向 Spark 。 在 这 个 过 程 中 ,我 们 发 现 目前 已 有 的 Spark 相关 书籍 
大 多 集中 在 介绍 Spark 技术 的 基础 原理 以 及 Spark 相关 工具 (例如 SparkSQL SparkR 
等 ) 的 基本 使 用 方法 上 。 而 要 学 习 如 何 使 用 Spark 中 提供 的 丰富 算 子 进行 算法 设计 
时 ,只 能 以 大 浪 淘 沙 的 方式 从 网 络 中 零散 的 资料 中 寻找 参考 。 因 此 ,我 们 觉得 如 果 有 
一 本 能 以 丰富 示例 介绍 Spark 程序 和 数据 挖掘 算法 设计 的 书籍 ,应 当 能 更 好 地 帮助 
Spark 开发 者 提高 学 习 效率 ,这 也 就 是 我 们 撰写 本 书 的 原动力 。 

基于 这 一 原动力 ,本 书 突出 以 实例 的 方式 介绍 和 展示 Spark 程序 和 算法 设计 的 方 
法 。 第 1 章 以 科技 史上 最 为 著名 的 6 个 失败 预言 引出 了 大 数据 时 代 以 及 Hadoop 技术 
出 现 的 必然 性 ,然后 通过 Hadoop 与 Spark 的 对 比 揭示 了 Hadoop 的 局 限 性 和 Spark 的 
优势 。 第 2 章 以 简洁 明了 的 方式 说 明了 如 何以 最 快 的 方式 搭建 一 个 Spark 运行 环境 ， 
并 通过 Shell 环境 体验 Spark 的 强大 功能 。 第 3 章 以 图 文 并 茂 的 形式 讲解 了 Spark 的 工 
作 原 理 、 架 构 与 运行 机 制 ,并 着 重 介绍 了 Spark 的 核心 RDD 的 变换 过 程 。 第 4 章 以 大 
量 示例 代码 的 形式 详细 说 明了 Spark 丰富 的 算 子 , 包 括 创建 算 子 、 变 换算 子 、 行 动 算 子 





| at 


和 缓存 算 子 。 为 了 帮助 读者 掌握 使 用 Spark. 设计 和 实现 复杂 算法 的 方法 ,第 5 章 以 10 
个 常见 算法 实例 展示 了 Spark 处 理 复杂 数据 处 理工 作 的 能 力 。 第 6 章 从 合理 分 配 资 
源 ,控制 并 行 度 等 9 个 方面 介绍 了 优化 Spark 性 能 、 拓 展 Spark 功能 的 方法 。 

与 市 面 上 大 部 分 Spark 书籍 不 同 , 除 原 理性 文字 外 ,本 书 还 提供 了 大 量 的 Spark 代 
码 实例 ,完成 这 些 代码 是 一 项 艰巨 的 工作 。 因 此 , 除 本 书 的 作者 外 ,我 们 必须 要 感谢 为 
文中 代码 编写 和 测试 作出 了 巨大 贡献 的 参与 者 ,他 们 是 来 自 北京 邮电 大 学 数据 科学 中 
心 的 研究 生 梁 阳 、 林 湖 荣 王蒙、 秦 超 、 印 德 扬 等 同学 ,以 及 北京 浩瀚 深度 信息 技术 股份 
ARAIKA EKKE RET o 

由 于 作者 水 平 有 限 ,加 之 开源 社区 的 高 度 活跃 性 ,Spark 技术 仍 在 快速 发 展 中 。 因 
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从 Hadoop 到 Spark 


说 起 Spark ,就 不 得 不 提 到 可 以 说 是 Spark“ 前任" 的 Hadoop 技术 。 同 为 目前 最 为 
炙手可热 的 两 个 大 数据 计算 框架 , Hadoop 与 Spark 经 常 被 放 在 一 起 进行 比较 。 受 
Coogle 大 数据 计算 框架 启发 而 产生 的 Hadoop 由 于 出 现时 间 较 早 ,并 且 由 于 其 大 幅 降 
低 了 编写 分 布 式 并 行 计算 程序 的 难度 ,同时 具备 优秀 的 低 成 本 和 可 扩展 特性 ,从 2008 
年 成 为 Apache 顶级 项 目 起 ,Hadoop 用 不 到 10 年 的 时 间 颠 获 了 历史 悠久 的 大 数据 处 理 
技术 格局 ,成 为 当之无愧 的 大 数据 处 理 技术 “无 园 之 王 ”"。 然 而 ,由 于 Hadoop 的 设计 重 
点 是 解决 大 数据 量 情况 下 的 批量 运算 问题 ,因此 在 计算 模式 多 元 化 (例如 迭代 和 图 计 
算 ) 和 实时 性 要 求 更 高 ( 流 式 计算 和 实时 计算 ) 的 新 环境 下 显得 有 点 “ 老 态 龙 钟 "。 于 
是 ,强调 迭代 计算 下 的 性 能 以 及 兼容 多 种 计算 模式 的 Spark 技术 应 运 而 生 , 并 在 很 短 的 
时 间 内 形成 了 全 面 取代 Hadoop 之 势 。 为 了 理 清 两 者 的 关系 以 更 好 地 理解 Spark ,在 本 
书 的 开篇 我 们 就 从 大 数据 的 出 现 和 Hadoop 的 产生 说 起 ,通过 简要 剖析 Hadoop 的 原理 
以 说 明 其 局 限 性 ,并 用 一 个 简单 的 常用 算法 实例 的 运行 性 能 对 比 , 为 大 家 展示 Spark. 的 
强大 能 力 。 














1.1 Hadoop 一 一 大 数据 时 代 的 火种 


1.1.1 大 数据 的 由 来 


1965 年 4 H 19 日 ,时 任 仙 童 半导体 公司 工程 师 ,后 来 创建 英特尔 公司 的 戈 登 ， 摩 
尔 在 著名 的 《电子 学 ) 杂 志 ( Electronics Magazine) 发 表 文 章 , 预言 半导体 芯片 上 集成 的 
晶体 管 和 电阻 数量 将 每 年 增加 1 倍 。10 年 后 ,摩尔 在 IEEE 国际 电子 组 件 大 会 上 将 他 
的 预言 修正 为 半导体 芯片 上 集成 的 晶体 管 和 电阻 数量 将 每 两 年 增加 1 倍 , 这 就 是 著名 
的 “摩尔 定律 " (如 图 1-1 所 示 ) 。 谁 也 想不到 ,这 个 预言 犹如 一 只 看 不 见 的 大 手 推 动 
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着 半导体 行业 在 半 个 世纪 里 的 飞速 发 展 ,并 见证 了 以 此 为 基础 的 IT 产业 的 蓬勃 发 展 。 


然而 ,不 是 所 有 人 都 能 有 摩尔 这 样 的 洞察 力 和 幸运 。 
满 满 的 预言 者 被 无 情 的 现实 击败 。 下 面 ,就 让 我 们 一 
的 6 个 失败 预言 ,并 见证 随 着 这 些 预言 逐一 破灭 而 到 




















在 变幻 莫 测 的 科技 界 ,更 多 自信 
起 来 回顾 一 下 科技 史上 最 为 著名 
来 的 大 数据 时 代 。 


Microprocessor Transistor Counts 1971-2011 & Moore's Law 
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图 1-1 摩尔 和 摩尔 定理 
。 最 失败 预言 一 :“ 我 找 不 到 普通 家 庭 也 需要 计算 机 的 理由 。” 





TW RR Ken Olsen) ,数字 设备 公司 (DEC) 创 始 人 


1977 年 ,美国 数字 设备 公司 (DEC ) 创始 人 肯 “' 奥 尔 森 认为 ,普通 的 家 庭 是 不 会 花 
费 巨 资 来 购买 一 台 计 算 机 的 。 他 认为 普通 家 庭 既 承担 不 起 计算 机 那 兄 贵 的 价格 ,也 不 


需要 计算 机 如 此 强大 的 计算 能 力 。 当 然 , 后 来 的 故 导 





有 我 们 已 经 知道 , 随 着 Apple IBM 


等 推出 价 廉 物美 的 个 人 计算 机 ,PC 迅速 普及 到 普通 家 庭 。 早 在 2011 年 在 美国 进行 的 
一 次 关于 PC 拥有 量 的 调查 就 显示 , 仅 拥有 一 台 PC 的 家 庭 就 占 到 14% ,而 约 60% 的 家 
庭 拥 有 3 台 或 者 3 台 以 上 PC。 在 中 国 市 场 ,2014 年 全 国家 庭 电脑 普及 率 已 超过 50% , 
在 经 济 较为 发 达 的 城市 中 ,家 庭 电脑 普及 率 已 超过 80% 。 很 多 家 庭 不 仅 拥有 供 家 庭 娱 
乐 或 办 公用 的 台式 机 ,还 会 购买 一 些 出 门 旅行 或 者 移动 工作 时 需要 的 便携 式 电脑 , 包 
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括 笔记 本 、 上 网 本 \ 平 板 电脑 等 ,甚至 还 有 少数 人 会 拥有 自己 的 服务 器 。 毫 无 疑问 , 计 
算 机 已 成 为 我 们 日 常生 活 的 一 部 分 。 通 过 计算 机 ,我 们 每 个 人 都 能 够 以 前 人 所 无 法 想 
象 的 速度 产生 、 处 理 和 消费 数据 。 

。 最 失败 预言 二 :“ 很 多 人 预测 1996 年 互联 网 产业 将 大 规模 增长 。 但 我 的 预测 


是 ,1996 年 互联 网 产业 由 于 增长 过 于 快速 ,将 像 超新星 一 样 爆炸 后 而 走向 骨 溃 。” 
一 罗伯特. 迈 特 卡尔 夫 (Robert Metcalfe) ,3Com 公司 创始 人 





1995 年 ,美国 公共 电视 网 ( Public Broadcasting Service, PBS) 推出 了 一 档 电 视 节 目 ， 
名 为 《计算 机 记事 》( Computer Chronicles) 。 这 个 节目 介绍 了 当时 还 只 是 少数 极 客 玩具 
的 互联 网 相关 技术 、 软 件 和 服务 。 由 此 ,互联 网 正式 开始 进入 美国 公众 视野 , 随 之 而 来 
的 是 快速 增长 的 互联 网 用 户 并 给 当时 有 限 的 网 络 带 宽带 来 了 极 大 的 压力 。 在 这 一 背 
景 下 ,网 络 设备 制造 商 3Com 创始 人 罗伯特 ' 迈 特 卡尔 夫 在 InfoWorld 发 文 作出 了 悲观 
的 预测 。 他 预测 1996 年 互联 网 产业 将 由 于 增长 过 于 快速 而 走向 崩溃 ,并 表示 如 果 事 
实情 况 证 明 自 己 该 预测 有 误 ,将 当众 “ 自 食 其 果 ”。 显 然 ,互联 网 并 没有 如 他 预测 的 那 
样 走向 衰败 ,反而 日 益 繁 荣 。 因 此 ,在 1999 年 举行 的 国际 互联 网 大 会 上 , 迈 特 卡尔 夫 
在 众 目 皮 皮 之 下 ,把 印 有 这 一 预测 文字 的 纸张 搅拌 到 一 杯 水 中 ,然后 一 饮 而 尽 。 到 了 
21 世纪 的 今天 ,互联 网 已 经 渗透 到 经 济 社会 各 领域 ,给 每 个 人 的 生活 带 来 了 前 所 未 有 
的 改变 。Google „Facebook , Youtube „Twitter QQ \ 微 博 、 微 信 等 丰富 多 彩 的 互联 网 服务 ， 
为 每 个 人 打开 了 一 扇 从 网 络 了 解 世界 、 向 世界 分 享 自我 的 窗口 ,在 互联 网 中 自由 平等 
地 交换 数据 与 信息 。 

。 最 失败 预言 三 :“ 全 球 垃圾 邮件 问题 将 在 今后 两 年 内 得 到 解决 。” 

一 一 比尔 . E X (Bill Gates) ,微软 创始 人 





随 着 20 世纪 90 年 代 互 联网 的 出 现 和 发 展 ,由 于 互联 网 及 相关 服务 的 高 度 开放 性 
和 交互 性 ,任何 一 个 网 站 或 个 人 都 能 生产 和 发 布 信息 ,这 为 所 有 信息 的 传播 开辟 了 一 
个 几乎 不 受 限制 的 空间 。 在 此 之 前 ,全 球 的 数据 量 基 本 是 每 20 个 月 增加 1 倍 。 而 在 
互联 网 出 现 之 后 ,数据 量 则 呈现 出 几何 级 数 增长 的 趋势 。 然 而 ,在 暴涨 的 数据 中 ,并 不 
完全 是 对 用 户 有 益 , 其 中 还 充斥 着 大 量 垃 圾 数据 ,垃圾 邮件 就 是 其 中 最 臭名 昭著 的 一 
类 。 比 尔 + 盖 茨 ,微软 帝国 的 缔造 者 , 毫 无 疑问 是 一 位 ”技术 控 ”, 他 坚信 随 着 技术 的 发 
展 垃圾 邮件 必然 会 得 到 有 效 控制 ,并 且 这 一 目标 将 很 快 实现 ,互联 网 会 因此 变 得 更 加 
安全 。 因 此 ,2004 年 11 月 在 马德里 举行 的 一 次 互联 网 大 会 上 ,比尔 * 盖 蒋 表示 :“ 目 
前 垃圾 邮件 已 成 为 全 球 非常 严重 的 安全 问题 ,业界 还 没有 找到 有 效 遏制 措 施 ,但 我 们 
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希望 这 一 现象 在 两 年 之 内 得 到 控制 ”遗憾 的 是 ,现实 比 他 预言 的 要 残酷 得 多 ,直到 今 
天 垃圾 邮件 仍然 是 困扰 全 球 互联 网 用 户 的 顽疾 。 就 在 笔者 编写 本 段 文字 的 时 候 , 在 屏 
幕 的 右上 角 就 在 弹出 邮件 软件 收 到 的 垃圾 邮件 提示 信息 。 
。 最 失败 预言 四 :“ 电 视 节目 的 流行 时 间 不 会 超过 半年 ,公众 每 晚会 面 对 着 一 个 
小 盒子 ,他 们 将 对 此 感到 厌烦 。” 
一 一 达 里 尔 . 扎 努 克 ( Darryl Zanuck) ,20 世纪 福克斯 公司 高 管 


在 20 世纪 中 期 ,电视 机 虽然 已 经 开始 走 入 普通 家 庭 ,开启 了 影音 娱乐 时 代 。 但 早 
期 的 电视 机 可 以 说 只 是 一 个 简陋 的 黑白 图 像 接收 器 ,在 这 样 的 设备 上 观看 娱乐 节目 的 
体验 可 想 而 知 。 因 此 ,虽然 像 20 世纪 福克斯 这 样 的 传统 电影 制作 和 发 行 公司 感觉 到 
了 电视 所 带 来 的 挑战 ,但 他 们 仍然 认为 这 种 简陋 的 娱乐 形式 很 快 会 随 着 人 们 对 电视 机 
新 鲜 劲 的 过 去 而 被 淘汰 ,这 也 是 为 什么 达 里 尔 ， 扎 努 克 会 预言 电视 节目 的 寿命 会 非常 
短暂 的 原因 。 然 而 , 扎 努 克 严 重 低估 了 人 们 对 即时 影音 媒介 的 强烈 需求 以 及 技术 所 带 
来 的 变化 。 随 着 彩色 电视 .无 线 技术 和 光 通 信 技 术 的 发 展 ,电视 节目 从 模拟 信号 发 展 
为 数字 信号 。 同 时 ,电视 节目 的 传输 媒介 已 经 不 仅仅 局 限 在 无 线 电波 和 有 线 电 视线 
缆 , 人 们 可 以 通过 PC 手机、 平板 电脑 等 多 种 终端 收看 电视 节目 。 收 看 电视 节目 已 经 
不 仅仅 是 为 了 人 们 每 晚 的 休闲 娱乐 ,更 是 人 们 认识 世界 、 了 解 世界 的 途径 。 人 们 对 富 
媒体 的 需求 不 但 没有 减退 ,反而 与 日 俱 增 。 同 时 , 人们 对 电视 节目 的 视觉 效果 也 提出 
了 更 高 的 要 求 ,从 标清 到 高 清 再 到 超 高 清 , 人 们 不 断 提 出 着 对 视觉 效果 的 更 高 要 求 并 
得 到 满足 。 清 晰 度 的 不 断 提升 ,意味 着 在 画面 大 小 不 变 的 情况 下 ,需要 有 更 多 的 像素 
点 ,这 也 带 来 了 在 网 络 中 传输 数据 的 快速 膨胀 。 


。 最 失败 预言 五 :“ 苹果 已 死 。” 
—— + & + 梅 沃 尔 德 ( Nathan Myhrvold) ,微软 前 首席 技术 官 


1976 年 ,21 PAYA + 乔布斯 和 他 的 小 伙伴 们 研制 出 了 世界 上 第 一 台 个 人 电 
脑 Apple-I。 虽 然 Apple-I 的 计算 能 力 与 现在 的 个 人 电脑 相 比 相差 甚 远 , 但 它 用 事实 证 
明了 个 人 电脑 完全 可 以 进入 普通 家 庭 。1984 年 ,全 新 的 苹果 电脑 Macintosh 诞生 ,这 是 
世界 上 第 一 款 采用 交互 式 图 形 处 理 界 面 的 个 人 电脑 产品 。Macintosh 的 成 功 帮 助 苹果 
公司 达到 第 一 个 赂 峰 ,其 1985 年 的 股票 市 值 高 达 20 亿美 元 。 但 由 于 各 种 原因 ,苹果 
公司 自 此 开始 从 识 峰 滑落 ,将 个 人 电脑 市 场 的 统治 地 位 拱手 让 给 微软 。 正 是 在 这 一 背 
景 下 ,微软 前 首席 技术 官 纳 桑 : 梅 沃 尔 德 推断 苹果 公司 不 久 就 会 倒闭 。 然 而 , 梅 沃 尔 
德 和 其 他 人 显然 都 低估 了 乔布斯 的 能 量 。1997 年 ,乔布斯 重 回 苹果 公司 执掌 大 权 , 强 
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力 推动 苹果 公司 回归 精品 创新 战略 ,接连 推出 了 iPod iPhone iPad 等 一 系列 让 消费 者 
眼前 一 亮 的 产品 ,并 带领 苹果 公司 重 返 襄 峰 。 苹 果 公 司 推出 的 一 个 又 一 个 智能 移动 设 
备 不 仅 帮助 苹果 公司 成 为 市 场 霸主 ,也 极 大 地 推动 了 移动 互联 网 的 发 展 。 在 iPhone, 
安 卓 手机 的 帮助 下 ,移动 互联 网 再 次 改变 了 我 们 的 生活 方式 。 人 们 可 以 随时 随地 分 享 
文字 、 图 片 .音频 和 视频 ,这 些 来 自 个 人 的 多 媒体 数据 在 互联 网 上 再 次 掀起 了 一 股 数字 
洪流 。 
。 最 失败 预言 六 :“ 我 觉得 全 球 市 场 大 概 只 需要 5 台 计 算 机 。” 
— — 35 Jp - iK (Thomas Watson) ,IBM 前 总 栽 


当 沃 森 作 出 上 述 预 言 时 , 全球 计算 机 产业 正 处 于 初创 阶段 。 个 人 电脑 还 没有 如 此 
普及 ,互联 网 企业 还 没有 大 规模 兴起 ,更 没有 出 现 如 今 这 么 多 的 智能 设备 。1GB 的 数 
据 在 当时 就 已 经 是 一 个 “大 "数据 了 。 因 此 , 沃 森 认 为 5 台 计 算 机 ( 当然 他 指 的 是 IBM 
的 大 型 机 ) 就 完全 可 以 满足 全 世界 所 有 的 数据 计算 需求 了 。 然 而 ,现实 世界 数据 量 和 
计算 需求 的 增长 速度 完全 超出 了 沃 森 的 想象 。 我 们 来 看 一 下 目前 一 些 大 型 互联 网 企 
业 需 要 处 理 的 数据 量 级 : 百度 > 200PB; QFacebook > 100PB; @)Yahoo > 100PB; 
图 淘 宝 > 153PB。 不 仅 是 互联 网 ,其 他 各 个 行业 的 数据 均 呈现 出 爆炸 式 的 增长 。 大 数 
据 已 经 渗透 到 当今 社会 的 各 个 领域 中 。 超 大 规模 的 数据 集 已 经 从 拍 字 节 (PB ) 发 展 到 
FEB) ,再 到 泽 字 节 (ZB ) ,而 且 数据 的 增加 速度 还 在 不 断 地 加 快 。 如 此 大 的 数据 
量 别 说 是 计算 ,就 是 存储 ,5 台 计算 机 也 存 不 下 。 

以 上 的 预言 之 所 以 失败 , 丝 是 因为 他 们 低估 了 科技 发 展 和 人 们 需求 增长 的 速度 。 
现 如 今 ,我 们 正 处 在 一 个 科技 高 速 发 展 的 时 代 。 随 着 计算 机 技术 和 互联 网 技术 的 高 速 
发 展 以 及 信息 的 数字 化 ,使 得 科技 水 平日 新 月 异 ,新 科技 、 新 应 用 层出不穷 。 同 时 也 带 
来 一 个 新 的 挑战 : 我 们 需要 面 对 的 数据 量 越 来 越 大 。 我 们 每 天 使 用 的 个 人 电脑 以 及 各 
种 智能 设备 ,我 们 每 天 收看 的 各 种 视频 节目 ,我 们 每 天 享用 的 各 种 便捷 的 互联 网 业务 
都 在 不 断 产 生 新 的 数据 。 科 技 的 高 速 发 展 用 事实 认证 了 6 个 预言 的 失败 ,同时 也 将 我 
们 带 入 了 一 个 “大 数据 时 代 ”。 


1.1.2 Google 解决 大 数据 计算 问题 的 方法 


随 着 上 面 6 个 预言 的 破灭 ,我 们 正式 迎 来 了 “大 数据 时 代 ”。 但 是 在 很 长 一 段 时 间 
里 ,人 们 面 对 这 爆炸 的 数据 显得 有 点 无 所 适 从 ,如 何 从 海量 的 数据 中 找到 自己 想 要 的 
信息 成 为 困扰 很 多 人 的 难题 。 于 是 ,Google 利用 这 一 难得 的 历史 机 遇 成 长 为 全 球 最 大 
的 搜索 引擎 服务 提供 商 。 我 们 都 知道 ,Google 并 不 是 第 一 个 做 搜索 引擎 的 ,在 它 之 前 
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还 有 Yahoo AltaVista 等 搜索 引擎 。 那 么 ,Google 是 如 何 战胜 这 些 强 大 的 竞争 对 手 脱 颖 
而 出 的 呢 ? 下 面 我 们 就 一 起 来 揭 开 这 谜 题 , 你 将 看 到 这 个 谜 题 的 答案 是 如 何 为 我 们 带 
来 大 数据 时 代 的 无 冕 之 王 Hadoop 的 。 

提 到 Google 搜索 引擎 ,通常 我 们 首先 想到 的 是 Google 的 核心 算法 一 PageRank 
HAA. PageRank 算法 是 Google 创始 人 佩 奇 ( Page) 的 博士 论文 题目 ,有 意思 的 是 ， 
PageRank 中 的 Page 并 不 是 网 页 (Web page) ,而 是 佩 奇 (Page ) 。 佩 奇 在 寻找 博士 论文 
题目 时 ,被 互联 网 的 数学 特性 所 深 深 吸 引 。 他 发 现 互联 网 中 的 每 个 网 页 都 可 以 看 作 是 

一 个 节点 ,而 网 页 上 的 链接 就 是 这 些 节 点 间 的 联系 ,它们 一 nnd and 








" aa A HARE B 的 一 个 链接 视 为 网 页 B bars. 同时 综合 
虑 网 页 A 自身 的 重要 性 ,就 可 以 准确 地 得 到 网 页 B. 的 重要 性 度量 值 ,这 就 是 PageRank 
算法 的 基本 思想 。 在 这 里 我 们 不 具体 探讨 PageRank 算法 , 感 兴 趣 的 读者 可 以 自行 控 
索 。 我 们 只 需要 知道 利用 PageRank 算法 可 以 得 到 每 个 网 页 的 重要 性 ,从 而 帮助 使 用 
者 找到 与 他 搜索 请 求 最 匹配 的 网 页 。 但 是 ,要 达到 这 一 目标 ,还 必须 解决 3 个 关键 问 
题 : 四 如 何 高 效 存储 和 管理 抓 取 获得 的 数 以 亿 计 的 网 页 信息 ? @ 如 何 快速 计算 数 以 亿 
计 网 页 的 PageRank 值 ? @) 如 何在 收 到 用 户 请 求 后 快速 返回 匹配 结果 ? 同时 ,在 当年 
也 只 是 一 个 普通 初创 互联 网 公司 的 Google ,要 完成 以 上 任务 ,还 必须 满足 以 下 两 个 约 
REH: 四 用 较 低 的 硬件 成 本 以 确保 公司 的 可 赢利 性 ; @) 容 易 扩展 以 适应 互联 网 数据 
的 快速 膨胀 。 这 看 起 来 似乎 是 个 不 可 能 完成 的 任务 ,然而 Google 的 计算 机 天 才 们 在 强 
大 的 压力 下 研发 出 了 解决 这 一 大 数据 处 理 问题 的 三 大 神器 : 具备 海量 数据 存储 和 访问 
的 分 布 式 文件 系统 GFS” 、 简 洁 高 效 的 并 行 计 算 编程 模型 MapReduce ”支持 海量 结 
构 化 数据 管理 的 BigTable? , 3x 3 项 技术 不 仅 为 Google 采用 大 量 廉价 计算 机 实现 包 
括 搜索 业务 在 内 的 海量 数据 处 理 能 力 提供 了 技术 基础 ,还 直接 导致 了 目前 被 广泛 应 用 
的 Hadoop 大 数据 计算 架构 的 产生 。 由 于 篇 幅 的 限制 ,下面 我 们 只 简要 地 了 解 下 与 本 
PER Spark 相关 的 两 个 基础 技术 GFS 和 MapReduce, 

。 分 布 式 文件 系统 GFS 

Google 的 系统 中 存储 了 大 量 通过 互联 网 抓 取 的 各 种 网 页 信息 ,这 些 信 息 需 要 存储 
在 文件 中 进行 管理 。 由 于 其 搜索 业务 需要 管理 的 海量 数据 特征 和 操作 特性 与 传统 的 
分 布 式 文件 系统 有 较 大 不 同 ,因此 ,在 Coogle 发 展 早期 两 位 创始 人 编写 了 自 有 的 文件 
管理 系统 BigFiles ,并 在 此 基础 上 发 展 出 了 Google File System( GFS), GFS 是 一 个 可 扩 
展 的 分 布 式 文件 系统 ,可 用 于 大 型 分 布 式 的 海量 数据 文件 的 管理 。CFS 的 设计 思想 不 
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同 于 传统 的 分 布 式 文件 系统 ,其 针对 大 规模 数据 处 理 和 Google 应 用 特征 进行 了 特殊 设 
计 , 依 靠 容错 机 制 运行 于 低 成 本 的 普通 硬件 上 ,为 大 量 并 发 用 户 提供 总 体 性 能 较 高 的 
文件 管理 服务 。GFS 设计 的 出 发 点 与 传统 分 布 式 文件 系统 的 区 别 主要 有 以 下 几 点 。 

(1) 系统 构建 在 由 大 量 低 成 本 的 普通 计算 机 组 件 构成 的 底层 硬件 资源 上 ,系统 中 
不 可 避免 地 会 出 现 较 多 的 系统 故障 。 因 此 ,在 基本 文件 管理 功能 之 外 ,还 需要 随时 监 
测 故 障 的 发 生 ,并 引入 容错 机 制 避免 故障 对 整体 计算 过 程 的 影响 。 

(2) 系统 要 管理 的 文件 主要 由 较 大 尺寸 的 文件 构成 ,通常 数量 在 百 万 数量 级 , 文 
件 大 小 在 100MB 以 上 , 且 可 能 存在 较 多 的 大 小 为 吉 比 特级 别 的 文件 ,对 这 些 大 文件 的 
管理 需要 进行 优化 ,以 提高 效率 。 同 时 ,系统 中 也 会 存在 小 文件 ,同样 需要 进行 支持 ， 
但 无 需 进 行 额外 优化 。 

(3) 系统 中 的 主要 负载 为 两 类 文件 操作 ,大 数据 量 流 式 读 取 和 小 数据 量 随机 读 
取 。 在 大 数据 量 流 式 读 取 操作 中 ,每 个 操作 需要 读 取 数 百 千 比特 或 1 兆 比特 以 上 的 数 
据 。 由 同一 客户 端 发 起 的 读 取 操 作 通 常会 读 取 一 个 文件 的 若干 连续 区 域 。 小 数据 量 
随机 读 取 则 通常 在 随机 的 位 置 读 取 几 千 比 特 的 数据 。 对 性 能 要 求 较 高 的 应 用 通常 会 
对 小 数据 量 随机 读 取 进行 优化 ,会 对 这 些 操作 进行 排序 并 进行 批量 处 理 , 以 确保 磁盘 
在 访问 文件 时 能 连续 读 取 而 非 反 复 寻 址 。 

(4) 系统 中 的 负载 还 存在 很 多 大 数据 量 的 对 文件 的 附加 写 入 数据 的 操作 ,这 些 操 
作 的 数据 量 与 读 操作 类 似 。 文 件 在 写 入 后 很 少 会 被 修改 。 对 文件 的 小 数据 量 的 随机 
写 操 作 需 要 被 系统 支持 ,但 由 于 极 少 发 生 因 此 不 需要 额外 关注 。 

(5) 系统 需要 实现 完整 定义 的 语义 操作 以 支持 多 个 终端 对 一 个 文件 同时 进行 附 
加 数据 的 操作 。 这 是 因为 系统 中 的 文件 经 常 被 多 个 队列 使 用 或 者 进行 多 方 合并 操作 ， 
因此 同一 个 文件 可 能 会 被 成 百 上 千 个 终端 进行 附加 数据 操作 。 

(6) 系统 对 底层 网 络 可 持续 的 高 带宽 数据 传输 的 要 求 要 大 于 对 传输 时 延 的 要 求 ， 
这 是 因为 系统 所 支持 的 应 用 通常 需要 快速 的 大 数据 量 处 理 ,而 很 少 对 单个 读 写 操作 的 
响应 时 延 有 特殊 的 要 求 。 

基于 以 上 特性 的 需求 ,Google 设计 的 GFS 系统 架构 参见 图 12 所 示 。 

GFS 架构 中 存在 3 类 节点 : 客户 端 主 控 节点 、 块 服务 器 。 客 户 端 ( Client) 是 GFS 
提供 给 上 层 应 用 使 用 的 一 组 接口 库 , 上 层 应 用 通过 调用 接口 库 中 的 接口 实现 GFS 系统 
中 的 文件 管理 。 主 控 节 点 ( Master) 是 GFS 系统 的 管理 节点 ,在 逻辑 上 ,整个 系统 中 只 
存在 一 个 主 控 节 点 。 主 控 节 点 中 保存 了 系统 中 所 有 文件 的 元 数据 ,并 负责 块 服务 器 的 
调配 。 块 服务 器 ( Chunk Server) 中 存储 了 具体 的 数据 文件 块 ( Chunk) ,系统 中 有 多 个 
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- 控制 流 
应 用 | (文件 名 称 ， 块 索引 | FS 主 控 节 点 /foo/bar pos 
GFS 客 户 端 — | P IUS dris 数据 流 
~ 一 一 一 一 一 | 文件 命名 空间 / chunk 2ef0 —— 
( 块 句 栖 ， 块 位 置 ) / 
A f 
4 
/ 
块 服务 器 指令 
块 服务 器 状态 
( 块 句柄 ， 字 节 范 围 ) 
| 6FS 块 服务 器 GFS 块 服务 器 
其 数据 Linux 文 件 系统 Linux 文 件 系 统 
图 12 GFS 系统 架构 





块 服务 器 。 文 件 按照 固定 大 小 的 块 进行 存储 ,默认 的 文件 块 大 小 为 64MB ,每 个 文件 块 
有 一 个 唯一 的 索引 号 。 当 一 个 应 用 要 访问 文件 时 ,客户 端 将 应 用 提供 的 文件 名 称 和 字 
节 偏 移 通过 固定 文件 块 大 小 进行 计算 后 获得 块 索引 ,然后 将 文件 名 称 和 块 索引 发 送 给 
主 控 节点 , 主 控 节 点 将 相应 的 用 于 访问 文件 块 的 块 句柄 和 文件 块 所 在 的 块 服务 器 位 置 
返回 给 客户 端 。 客 户 端 将 这 些 信息 进行 缓存 ,并 访问 离 自 己 距离 最 近 的 块 服务 器 获得 
块 数据 。 块 服务 器 信息 的 缓存 减少 了 客户 端 和 主 控 节 点 间 的 数据 交互 ,提高 了 系统 运 
行 效率 。 

* 分 布 式 并 行 计 算 编 程 模型 MapReduce 

MapReduce 编程 思想 的 起 源 来 自 于 1956 年 由 图 灵 奖 获得 者 John McCarthy 提出 的 
Lisp 语言 中 的 MapReduce 功能 。Lisp 语言 的 MapReduce 操作 模式 是 一 种 标准 的 函数 
式 编程 模式 ( 其 他 的 编程 模式 还 有 我 们 熟悉 的 面向 过 程 编程 模式 、 面 向 对 象 编程 模式 
等 ) ,这 种 编程 模式 将 计算 过 程 转化 为 一 系列 数学 函数 的 计算 。 由 于 这 种 模式 中 不 引 
和 变量 ,上 且 不 具有 状态 性 ,因此 非常 适合 并 行 计算 环境 。 在 1995 年 ,John Darlington 等 
人 将 这 种 思想 以 Map Fold 的 形式 引入 到 他 们 提出 的 并 行 编程 语言 SCL 中 。 

在 借鉴 以 上 编程 思想 的 基础 上 , Google 实现 了 自己 的 MapReduce 并 行 编程 模型 。 
与 以 上 基础 的 编程 函数 不 同 , Google 的 MapReduce 不 仅 是 一 个 简单 而 强大 的 函数 接 
口 ,而 且 包 含 了 一 系列 并 行 处 理 、 容 错 处 理 、 本 地 化 运算 和 负载 均衡 等 技术 的 软件 实 
现 ,提供 了 一 个 完整 的 大 尺度 并 行 运算 编程 环境 。 简 单 来 说 , Map 操作 就 是 对 输入 的 
一 个 数据 列表 中 的 每 个 元 素 进行 一 个 指定 的 操作 ,而 Reduce 操作 就 是 将 Map 输出 的 
新 数据 列表 以 某 种 方式 进行 合并 操作 。Google 的 MapReduce 运行 原理 和 实现 机 制 参 
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1-3 MapReduce 原理 和 机 制 


简单 来 说 , Map 操作 就 是 对 输入 的 一 个 数据 列表 中 的 每 个 元 素 进行 一 个 指定 的 操 
作 , 而 Reduce 操作 就 是 将 Map 输出 的 新 数据 列表 以 某 种 方式 进行 合并 操作 。 在 
Google 的 实现 机 制 中 ,主要 有 两 类 特殊 的 工作 节点 ,一 类 是 工作 机 ( Worker) ,用 于 执行 
Map 或 Reduce 任务 ,一 类 是 主 控 程序 ( Master) ,用 于 将 Map 和 Reduce 分 配 到 合适 的 工 
作 机 上 。 图 1-3 Cb) 描述 了 用 户 程序 、 主 控 程 序 和 工作 机 协同 工作 完成 整个 
MapReduce 工作 的 流程 。 

(1) 用 户 程序 中 的 MapReduce 库 将 输入 的 数据 文件 分 为 M 个 片段 ,每 个 片段 的 大 
小 在 16 ~64MB ,然后 在 计算 机 集群 上 启动 很 多 程序 副本 。 

(2) 其 中 的 一 个 程序 副本 被 指定 为 主 控 程 序 , 其 余 的 为 工作 机 。 主 控 程 序 指定 M 
个 空闲 的 工作 机 运行 Map 任务 ,R 个 空闲 的 工作 机 运行 Reduce 任务 。 

(3) 被 指定 的 Map 工作 机 从 对 应 的 输入 文件 片段 中 读 取 需要 处 理 的 数据 集 ,并 进 
行 处 理 获得 中 间 结 果 。 

(4) Map 工作 机 产生 的 中 间 结 果 先 被 缓存 在 内 存 中 ,并 定期 写 入 每 个 Map 工作 机 
的 本 地 硬盘 。 写 人 本 地 硬盘 的 中 间 结 果 通 过 分 区 函数 被 分 为 R 个 分 区 ,并 且 中 间 结 果 
在 本 地 硬盘 的 位 置信 息 会 发 送 到 主 控 程序 ,由 主 控 程序 通知 Reduce 工作 机 。 

(5) 当 Reduce 工作 机 收 到 主 控 程 序 发 来 的 中 间 结 果 位 置信 息 后 ,通过 远程 处 理 
请 求 将 位 于 Map 工作 机 本 地 硬盘 的 数据 读 取 到 Reduce 工作 机 中 ,以 准备 进行 相应 的 
处 理 。 

(6) Reduce 工作 机 在 读 取 到 所 需要 的 全 部 中 间 数 据 后 ,对 数据 进行 排序 ,并 按照 
指定 的 Reduce 函数 进行 处 理 ,结果 被 输出 到 一 个 最 终 的 输出 文件 中 。 
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(7) 在 所 有 的 Map 和 Reduce 任务 执行 完成 后 , 主 控 程序 将 激活 用 户 程序 ,用 户 程 
序 的 执行 回 到 MapReduce 请 求 的 发 生 点 。 

2003 年 至 2006 年 期 间 ,Google 将 其 三 大 核心 技术 MapReduce , GFS , BigTable 以 学 
术 论 文 的 形式 进行 了 公开 发 表 , 还 披露 了 与 这 三 大 技术 相关 的 其 他 几 项 构成 其 大 数据 
计算 平台 的 关键 技术 ,例如 分 布 式 锁 服务 Chubby 海量 数据 分 析 语言 Sawzall 等 。 这 一 
技术 簇 群 的 公布 ,迅速 在 海量 数据 处 理 业 界 引 起 了 巨大 反响 ,并 直接 导致 了 目前 被 广 
泛 采 用 的 开源 架构 Hadoop 的 诞生 。 

















1.1.3 Hadoop 的 由 来 与 发 展 


当 2003 年 Google 第 一 篇 关于 云 计 算 核 心 技术 GFS 的 论文 发 表 时 ,Apache 开源 项 
E Nutch 搜索 引擎 的 开发 者 Doug Cutting 等 人 正面 临 着 如 何 将 其 架构 扩展 到 可 以 处 理 
数 十 亿 网 页 的 规模 的 难题 。 在 了 解 了 GFS 系统 后 ,他 们 敏锐 地 意识 到 ,这 样 的 技术 架 
构 可 以 帮助 他 们 解决 存储 Nutch 抓 取 网 页 和 建立 索引 过 程 中 产生 的 大 量 文件 的 问题 ， 
并 提高 管理 这 些 存 储 节点 的 效率 。 因 此 ,在 参考 GFS 技术 的 基础 上 ,他 们 在 2004 年 编 
写 了 一 个 开放 源码 的 类 似 系统 NDFS 分 布 式 文件 系统 ( Nutch Distributed File 
System)  。 

同样 在 2004 年 ,Google 公开 发 表 了 阐述 其 男 一 核心 技术 MapReduce 的 论文 ,让 业 
界 第 一 次 真切 感受 到 了 MapReduce 编程 模型 在 解决 大 型 分 布 式 并 行 计算 问题 上 的 巨 
大 威力 和 实用 性 。 很 快 Nutch 团队 就 将 MapReduce 技术 应 用 于 他 们 的 项 目 ,在 2005 
年 将 Nutch 的 主要 算法 都 移植 到 基于 MapReduce 和 NDFS 的 框架 下 运行 。 

在 完成 了 MapReduce 和 NDFS 的 开源 实现 后 , Nutch 项 目的 两 名 兼职 开发 人 员 为 
Nutch 搭建 了 一 个 包含 20 个 计算 节点 的 平台 ,验证 了 这 两 个 开源 组 件 在 解决 搜索 数 百 
万 网 页 问题 情况 下 的 有 效 性 。 但 是 ,在 面 对 将 这 两 项 技术 拓展 到 可 以 面 对 数 十 亿 级 的 
网 页 的 工作 时 ,他 们 面临 了 绝 大 的 资源 压力 。 幸 运 的 是 ,雅虎 公司 也 发 现 了 这 两 项 技 
术 的 巨大 潜力 ,将 Nutch 的 开发 者 之 一 Doug Cutting 招 人 公司 ,并 建立 了 一 个 专门 的 团 
队 提供 支持 。 在 这 样 的 条 件 下 ,Nutch 项 目的 分 布 式 运算 部 分 被 单独 剥离 出 来 ,成 为 了 
Apache 的 一 个 单独 子 项 目 Hadoop。 有 意思 的 是 ,Hadoop 这 一 项 目 名 称 来 源 于 创立 者 
Doug Cutting 儿子 的 一 个 玩具 ,一 头 黄色 的 大 象 , 并 没有 什么 实际 的 含义 。 这 一 简短 易 
读 的 命名 特点 影响 了 Hadoop 后 续 子 项 目的 命名 ,例如 Pig Hive 等 。 

Hadoop 项 目的 目标 是 建立 一 个 能 够 对 海量 数据 进行 可 靠 的 分 布 式 处 理 的 可 扩展 
开源 软件 框架 。Hadoop 面向 的 应 用 环境 是 大 量 低 成 本 计算 机 构成 的 分 布 式 运 算 环 境 ， 
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因此 , 它 假设 计算 节点 和 存储 节点 会 经 常 发 生 故 障 ,为 此 设计 了 数据 副本 机 制 , 确 保 能 
够 针对 在 出 现 故 障 节点 的 情况 下 重新 分 配 任务 。 同 时 ,Hadoop 以 并 行 的 方式 工作 , 通 
过 并 行 处 理 加 快 处 理 速度 ,具有 高 效 的 处 理 能 力 。 从 设计 之 初 ,Hadoop 就 为 支持 可 能 
面 对 的 PB 级 海量 数据 环境 进行 了 特殊 的 设计 ,具有 优秀 的 可 扩展 性 。 可 靠 .高效 、 可 
扩展 这 三 大 特性 ,加 上 Hadoop 开源 免费 的 特性 ,使 Hadoop 技术 得 到 了 迅猛 发 展 ,并 在 
2008 年 成 为 Apache 的 顶级 项 目 。 
Hadoop 项 目 对 应 于 Google 云 计算 核心 技术 GFS „MapReduce ,BigTable 实现 了 自己 
的 三 大 核心 子 项 目 : HDFS, MapReduce 和 HBase。 但 在 实际 应 用 环境 中 ,大 数据 资源 
的 来 源 多 种 多 样 , 各 不 相同 。 为 了 处 理 特殊 的 需求 ,目前 Hadoop 项 目 已 经 形成 了 一 个 
生态 圈 , 包 括 多 个 应 用 工具 。 下 面 我 们 将 与 Hadoop 体系 相关 的 由 Apache 开源 组 织 支 
持 的 主要 组 件 及 相关 项 目 整理 如 下 。 
。 Hadoop Common: 从 其 名 称 就 可 以 看 出 来 ,Hadoop Common 项 目 是 为 Hadoop $% 

体 架 构 提 供 基础 支撑 性 功能 ,主要 包括 了 文件 系统 ( FileSystem) ,远程 过 程 调用 
协议 (RPC ) 和 数据 串 行 化 库 (Serialization Libraries)。 资 料 地 址 : https:// 
hadoop. apache. org。 
HDFS; HDFS 是 运行 在 由 廉价 计算 机 组 成 的 大 规模 集群 上 的 分 布 式 文件 系统 ， 
具有 低 成 本 高 可 靠 性 \ 高 吞吐 量 的 特点 ,由 早期 的 NDFS 演化 而 来 。 资 料 地 
Sik: https:// hadoop. apache. org/ docs/ rl. 2. 1/ hdfs design. html, 
* MapReduce; MapReduce 是 一 个 分 布 式 的 数据 处 理 模式 和 执行 环境 。 用 于 在 大 

规模 计算 机 集群 上 编写 对 海量 数据 进行 快速 处 理 的 并 行 化 程序 。 资 料 地 址 : 

https:// hadoop. apache. org/ docs/ current/ hadoop-mapreduce-client/ hadoop- 














mapreduce-client-core/ MapReduceTutorial. html , 

。 YARN: YARN 是 一 个 集群 资源 管理 调度 的 框架 ,用 以 提高 分 布 式 的 集群 环境 
下 的 资源 利用 率 。 资料 地 址 : http:// hadoop. apache. org/ docs/ current/ 
hadoop-yam/ hadoop-yarn-site/ YARN. html, 

。 Ambari; Ambari 是 一 个 用 于 安装 .管理 和 监控 Hadoop 集群 的 Web 界面 工具 。 
目前 已 支持 包括 MapReduce HDFS HBase 在 内 的 几乎 所 有 Hadoop 组 件 的 管 
理 。 项 目地 址 : http:// incubator. apache. org/ ambari。 

© Avro: Avro 是 一 个 数据 序列 化 系统 ,由 Hadoop 创始 人 Doug Cutting 牵头 开发 ， 

主要 提供 的 功能 包括 : 中 丰富 的 数据 结构 类 型 ; @ 一 个 快速 可 压缩 的 二 进 制 

格式 ; @ 提 供 一 个 可 以 存储 持久 数据 的 文件 容器 ; @ 远 程 过 程 调用 ; OWI 
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便 地 和 动态 语言 结合 。 项 目地 址 : http:// avro. apache. org, 

* Cassandra; Cassandra 是 一 个 大 型 的 面向 列 的 分 布 式 数 据 库 , 具 有 弹性 可 扩展 、 
高 可 用 性 ,容错 能 力 强 等 特性 。 项 目地 址 : http:// cassandra. apache. org. 

© HBase; HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 , 不 同 于 一 般 的 关系 数据 
库 , 它 是 一 个 适合 于 非 结 构 化 海量 数据 存储 的 数据 库 。 项 目地 址 : http:// 
hbase. apache. org。 

* Hive: Hive 是 一 个 分 布 式 的 数据 仓库 。Hive 管理 的 数据 全 部 存储 在 HDFS E, 
并 提供 完整 的 SQL 查询 功能 ,可 以 将 SQL 语句 转换 为 可 执行 的 MapReduce ff 
务 进行 运行 。 项 目地 址 : http:// hive. apache. org, 

e Mahout; Mahout 是 一 个 可 扩展 的 机 器 学 习 和 数据 挖掘 的 算法 库 。Mahout 现在 
BAW TRK 分类、 推荐 引擎 (协同 过 滤 ) 和 频繁 项 集 挖掘 等 广泛 使 用 的 数 
据 挖掘 方法 。 项 目地 址 : http:// mahout. apache. orgs 

© 0ozie: Oozie 是 一 个 Hadoop 工作 流 调度 系统 , 它 可 以 把 多 个 Map/ Reduce 作业 
组 合 到 一 个 逻辑 工作 单元 中 , 从 而 完成 更 大 型 的 任务 。 项 目地 址 : http:// 
oozie. apache. orgs 

* Pig: Pig 是 一 个 处 理 大 数据 的 数据 流 式 语言 和 执行 环境 。 运 行 在 HDFS 和 
MapReduce 集群 之 上 。Pig 的 特点 是 其 结构 设计 支持 真正 的 并 行 化 处 理 , 因 此 
适合 应 用 于 海量 数据 处 理 环境 。 项 目地 址 : http:// pig. apache. org。 

© Sqoop:Sqoop 是 一 款 用 于 在 HDFS 与 传统 关系 数据 库 间 进行 数据 交换 的 工具 。 
可 以 用 于 将 传统 数据 库 ( 例 如 Mysql, Oracle) 中 的 数据 导入 HDFS 或 
MapReduce, 并 将 处 理 后 的 结果 导出 到 传统 数据 库 中 。 项 目地 址 : http:// 
sqoop. apache. org。 

© ZooKeeper: ZooKeeper 是 一 个 分 布 式 应 用 程序 协调 服务 器 ,用 于 维护 Hadoop 集 
群 的 配置 信息 、 命 名 信息 等 ,并 提供 分 布 式 锁 同 步 功 能 和 群 组 管理 功能 。 项 目 
地 址 : http:// zookeeper. apache. orgs 





1.2 Hadoop 的 局 限 性 


自 2008 年 成 为 Apache 顶级 项 目 后 ,经 过 7 年 的 发 展 ,Hadoop 已 经 成 为 大 数据 处 
理 技术 事实 上 的 标 配 ,并 在 众多 应 用 领域 证 明了 效率 和 成 本 的 优势 ,这 是 一 项 非常 了 
不 起 的 成 就 。 然 而 ,正如 硬币 都 有 正 反 两 面 一 样 ,由 于 过 度 追 求解 决 批 量 处 理 问 题 ， 
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Hadoop 技术 也 在 面 对 需 要 迭代 计算 或 流 式 处 理 的 应 用 场景 时 存在 很 大 的 局 限 性 。 要 
了 解 这 一 局 限 形成 的 原因 ,我 们 还 需要 从 Hadoop 技术 的 两 个 核心 组 件 HDFS 和 
MapReduce 说 起 。 


1.2.1 Hadoop 运行 机 制 


图 1-4 展示 了 一 个 典型 的 Hadoop 部 署 环境 图 及 逻辑 组 件 之 间 的 交互 ,我 们 将 结合 
此 图 对 Hadoop 的 主要 逻辑 组 件 进行 说 明 ,并 为 大 家 建立 一 个 简明 的 Hadoop 原理 和 运 
行 机 制 全 景 图 。 由 于 篇 幅 所 限 ,我 们 在 这 里 并 不 对 HDFS 和 MapReduce 的 技术 细节 进 
行 说 明 , 感 兴趣 的 读者 可 以 通过 本 书 作者 编写 的 《Hadoop 大 数据 处 理 》 一 书 进行 了 解 。 
Hadoop 是 通过 HDFS 和 MapReduce 的 两 大 逻辑 组 件 相互 配合 完成 用 户 提交 的 海量 数 
据 处 理 请 求 ,它们 的 功能 组 件 如 下 (以 较 易 理 解 的 Hadoop 版 本 1. x 的 架构 为 例 ) : 
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图 1-4 Hadoop 部 署 及 逻辑 组 件 关系 图 

e HDFS 组 件 

V NameNode; NameNode 是 HDFS 系统 中 的 管理 者 , 它 负责 管理 文件 系统 的 命名 
空间 ,维护 文件 系统 的 文件 树 及 所 有 的 文件 和 目录 的 元 数据 。 这 些 信息 存储 
在 NameNode 维护 的 两 个 本 地 磁盘 文件 : 命名 空间 镜像 文件 和 编辑 日 志文 件 。 
同时 ,NameNode 中 还 保存 了 每 个 文件 与 数据 块 所 在 的 DataNode 的 对 应 关系 ， 
这 些 信息 将 被 用 于 其 他 功能 组 件 查找 所 需 文件 资源 的 数据 服务 器 。 

V DataNode: DataNode 是 HDFS 文件 系统 中 保持 数据 的 节点 。HDFS 中 的 文件 通 
常 被 分 割 为 多 个 数据 块 , 以 元 余 备 份 的 形式 存储 在 多 个 DataNode H, 


14 第 1 章 从 Hadoop £] Spark 


DataNode 定期 向 NameNode 报告 其 存储 的 数据 块 列表 ,以 备 使 用 者 通过 直接 访 
问 DataNode 获得 相应 的 数据 。 

。 MapReduce 组 件 

V JobClient: JobClient 是 基于 MapReduce 接口 库 编写 的 客户 端 程序 ,负责 提交 
MapReduce 作业 。 

V JobTracker; JobTracker 是 应 用 与 MapReduce 模块 之 间 的 控制 协调 者 , 它 负 责 协 
调 MapReduce 作业 的 执行 。 当 一 个 MapReduce 作业 提交 到 集群 中 ,JobTrack 

负责 确定 后 续 执 行 计 划 ,包括 需要 处 理 哪 些 文件 .分 配 任务 的 Map 和 Reduce 

执行 节点 ,监控 任务 的 执行 .重新 分 配 失败 的 任务 等 。 每 个 Hadoop 集群 中 只 
有 一 个 JobTracker。 

V TaskTracker: TaskTracker 负责 执行 由 JobTracker 分 配 的 任务 ,每 个 TaskTracker 
可 以 启动 一 个 或 多 个 Map 或 Reduce sakes 同时 ,TaskTracker 5j JobTracker [H] 


N MapTask , ReduceTask; MapTask fil ReduceTask e TaskTracker 启 — HEA 
体 执行 Map 任务 和 Reduce 任务 的 程序 

以 上 这 些 组 件 协同 工作 执行 一 个 分 布 式 并 行 数据 技术 任务 的 流程 如 下 ( 编号 与 图 
中 的 流程 编号 对 应 ) 。 

(D MapReduce 程序 启动 一 个 JobClient 实例 以 开启 整个 MapReduce 作业 (Job) 。 

(2) JobClient 通过 getNewJobld ( ) 接口 向 JobTracker 发 出 请 求 , 以 获得 一 个 新 的 
作业 ID。 

@ JobClient 根据 作业 请 求 指定 的 输入 文件 计算 数据 块 的 划分 ,并 将 完成 作业 需要 
的 资源 ,包括 JAR 文件 ,配置 文件 数据 块 ,存放 到 HDFS 中 属于 JobTracker 的 以 作业 
ID 命名 的 目录 下 ,一些 文件 (例如 JAR 文件 ) 可 能 会 以 元 余 备 份 的 形式 存放 在 多 个 节 
点 上 。 

@ 完成 上 述 准备 工作 后 ,JobClient 通过 调用 JobTracker 的 submitJob( ) 接口 提交 此 
作业 。 

®© JobTracker 将 提交 的 作业 放 入 一 个 作业 队列 中 等 待 进行 作业 调度 以 完成 作业 
初始 化 工作 。 作 业 初 始 化 主要 是 创建 一 个 代表 此 作业 的 运行 对 象 ,作业 运行 对 象 中 封 
装 了 作业 包含 的 任务 和 任务 运行 状态 记录 信息 用 于 后 续 跟踪 相关 任务 的 状态 和 执行 
进度 。 

© JobTracker 还 需要 从 HDFS 文件 系统 中 取出 JobClient 放 好 的 输入 数据 ,并 根据 
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输入 数据 创建 对 应 数量 的 Map 任务 。 同 时 ,根据 JobConf 配置 文件 中 定义 的 数量 生成 
Reduce 任务 。 

CD 在 TaskTracker 和 JobTracker 间 通 过 心跳 机 制 维持 通信 ,TaskTracker 发 送 的 心 
跳 消息 中 包含 了 当前 是 否 可 执行 新 任务 的 信息 ,根据 这 个 信息 ,JobTracker 将 Map 任务 
和 Reduce 任务 分 配 到 空闲 的 TaskTracker 节点 。 

被 分 配 了 任务 的 TaskTracker 从 HDFS 文件 系统 中 取出 所 需 的 文件 ,包括 JAR 
程序 文件 和 任务 对 应 的 数据 文件 ,并 存 人 本 地 磁盘 ,并 启动 一 个 TaskRunner 程序 实例 
准备 运行 任务 。 

(9) TaskRunner 在 一 个 新 的 Java 虚拟 机 中 根据 任务 类 别 创建 出 MapTask 或 
ReduceTask 进行 运算 。 在 新 的 Java 虚拟 机 中 运行 MapTask 和 ReduceTask 的 原因 是 避 
免 这 些 任务 的 运行 异常 影响 TaskTracker 的 正常 运行 。MapTask 和 ReduceTask 会 定时 
与 TaskRunner 进行 通信 报告 进度 ,直到 任务 完成 。 


1.2.2 Hadoop 的 性 能 问题 


数据 科学 家 在 面 对 大 规模 数据 分 析 时 ,经 常 需要 面 对 两 类 问题 。 

(1) 数据 缓存 : 在 应 用 数据 挖掘 算法 前 ,数据 往往 需要 进行 预 处 理 操作 ,对 数据 中 
一 部 分 不 符合 要 求 的 数据 进行 不 断 的 清洗 过 滤 。 而 这 些 清洗 工作 又 不 是 可 以 用 简单 
的 线性 操作 完成 的 。 同 时 ,算法 计算 过 程 中 的 中 间 结 果 也 需要 保留 , 以便 后 续 操 作 
使 用 。 

(2) 算法 迭代 : 数据 科学 家 需要 应 用 复杂 的 数据 挖掘 算法 对 数据 进行 分 析 , 而 这 
些 算法 往往 需要 复杂 的 运算 逻辑 和 反复 的 迭代 过 程 ,以 达到 求解 最 优 解 的 目的 。 例 如 
K-means 算法 ,梯度 下 降 算 法 等 。 

由 于 Hadoop 天 生 的 设计 缺陷 ,在 处 理 以 上 两 个 问题 时 显得 有 点 力不从心 。 为 了 
理解 其 原因 ,我 们 先 从 Hadoop 的 核心 计算 模式 MapReduce 说 起 。MapReduce 计算 模 
式 将 数据 的 处 理 过 程 分 为 两 个 阶段 : Map 和 Reduce。 在 Map 阶段 ,原始 数据 被 输入 
mapper 进行 过 滤 和 转换 , 获得 的 中 间 数 据 在 Reduce 阶段 作为 reducer 的 输入 ,经 过 
reducer 的 聚合 处 理 ,获得 最 终 处 理 结果 。 其 过 程 可 以 用 图 1-5 描述 。 

为 了 适应 多 样 化 的 数据 环境 , MapReduce 中 采用 关键 字 / 值 数 据 对 ( Key-Value 
Pair) 作为 基础 数据 单元 。 关 键 字 和 值 可 以 是 简单 的 基本 数据 类 型 ,例如 整数 、 浮 点 数 、 
字符 串 二 进 制 字 节 , 也 可 以 是 复杂 的 数据 结构 ,例如 列表 、 数 组 、 自 定义 结构 。Map 阶 
段 和 Reduce 阶段 都 将 关键 字 / 值 作为 输入 和 输出 ,其 公式 表达 如 下 ( <… > 代表 关键 
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图 1-5 MapReduce 处 理 过 程 图 
字 / 值 数 据 对 ,[…] 代 表 列 表 ) : 


Map: «k1, v1 > — [<k2, v2>] 
Reduce: «k2, [v2] > > [<k3, v3 >] 


结合 上 图 和 公式 ,MapReduce 基本 处 理 过 程 表达 如 下 。 

(1) MapReduce 应 用 将 一 个 [ «kl, vl > ] 列表 作为 参数 传递 给 MapReduce 处 理 
模块 ,例如 [ < String fileName, String fileContent > ] MapReduce 处 理 模块 将 这 个 列表 
拆 分 为 单独 的 <kl1, v2 > 数据 对 ,分 发 给 对 应 的 mapper 进行 处 理 。 

(2) mapper 根据 函数 定义 的 处 理 过 程 ,对 <kl, vl > 进行 处 理 ,生成 <k2, v2 > 列 
表 。 由 于 数据 处 理 过 程 是 无 序 的 ,因此 ,每 个 <k2, v2 > 数值 对 的 生成 过 程 必须 是 自 包 
含 的 , 即 不 与 其 他 数值 对 的 生产 过 程 相 关 。 所 有 mapper 的 处 理 结果 合 在 一 起 构成 了 
一 个 大 的 <k2, v2 > 列表 ,这 个 列表 中 关键 字 相 同 的 数据 对 被 合并 为 一 个 新 的 关键 字 / 
值 数 据 对 <k2, [v2] > , 即 k2 和 一 系列 的 亿 。reducer 按照 函数 定义 的 处 理 过 程 ,对 这 
些 新 的 数据 对 进行 处 理 , 获 得 最 终 的 处 理 结果 , 并 以 [ (k3, v3)] 列 表 的 形式 输出 。 

通过 如 上 对 MapReduce 的 介绍 可 以 看 出 , MapReduce 工作 模型 非常 简单 , 它 只 有 
两 个 基本 操作 : Map、Reduce。 这 种 简化 是 为 了 降低 编写 分 布 式 并 行 计算 程序 的 复杂 
度 。 但 是 ,这 种 简化 也 带 来 了 新 的 问题 ,就 是 在 进行 复杂 算法 设计 和 非 线性 的 数据 处 
理 时 ,只 能 通过 Map + Redcue 的 县 加 来 实现 。 一 个 算法 通常 需要 多 个 Map + Redcue 的 
过 程 才能 实现 ,而 每 一 个 Map + Redcue 的 过 程 ,Hadoop 都 要 单独 启动 一 个 Job 来 实现 。 
每 一 个 Job 的 启动 都 增加 了 整个 算法 的 开销 。 同 时 ,MapReduce 计算 模式 在 进行 多 个 
Job 时 ,必须 依赖 Hadoop 的 另 一 项 核心 技术 HDFS 交换 数据 。HDFS 最 初 的 设计 思想 
是 数据 “一 次 写 和 人、 多 次 读 写 ”"。HDFS 中 的 一 个 数据 块 会 被 复制 分 发 到 不 同 的 存储 节 
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点 中 ,使 用 磁盘 作为 中 间 过 程 交互 数据 的 媒介 。 多 个 MapReduce Job 在 衔接 时 ,都 需要 
将 数据 写 入 磁盘 ,再 读 出 ,因此 ,在 进行 反复 迭代 的 计算 时 会 增加 大 量 的 网 络 开销 和 磁 
ft 10 开销。 

为 了 直观 展示 Hadoop 的 局 限 性 ,我 们 用 一 个 常见 的 数据 挖掘 算法 K-means'”) HK 
例 来 说 明 。K-means 算法 是 最 为 经 典 的 聚 类 方法 ,被 誉 为 数据 挖掘 十 大 经 典 算法 之 一 ， 
在 数据 挖掘 领域 有 着 广泛 的 应 用 。K-means 算法 要 解决 的 问题 如 图 1-6 所 示 。 图 中 的 
一 个 平面 中 散落 着 一 些 离散 点 ,这 些 离散 点 之 间 有 远 有 近 , 形 成 了 4 个 类 (或 称 簇 )。 
在 同一 个 类 中 的 节点 间距 离 很 近 , 而 与 不 同类 中 的 点 之 间距 离 相对 较 远 。K-means 算 
法 的 目标 就 是 在 没有 明确 的 分 类 规则 的 情况 下 ,将 这 些 点 自动 分 为 4 类 。 











图 16 K-means 算法 示意 图 


K-means 算法 的 基本 步骤 为 : 

(1) 初始 化 K 个 点 为 类 的 中 心 ; 

(2) 计算 每 个 样本 点 到 K 个 类 中 心 的 距离 ; 

(3) 将 每 个 数据 点 归 类 到 离 它 最 近 的 那个 类 中 心 所 属 的 类 

(4) 计算 并 更 新 每 个 类 的 中 心 ; 

(5) 重复 步骤 (2) ~ (4) ,直到 每 个 类 的 中 心 不 再 发 生变 化 (或 变化 值 小 于 一 个 
BUR) 。 
图 1.7 以 将 5 个 样本 点 分 为 2 类 为 例 ,展示 了 k-means 算法 的 每 一 步 过 程 ,其 中 
A E 为 5 个 样本 点 ,实心 贺 点 为 2 个 类 的 中 心 点 。 

从 K-means 的 算法 过 程 中 可 以 看 出 这 是 一 个 典型 的 迭代 算法 , 且 在 样本 点 分 类 的 
过 程 中 样本 点 之 间 是 独立 的 , 因此 可 以 很 容易 地 使 用 MapReduce 计算 模式 实现 。 
K-means 的 MapReduce 算法 基本 思路 是 实现 一 个 Job ,其 中 用 Map 函数 完成 算法 中 的 
步骤 (2) 计算 每 个 样本 点 到 K 个 类 中 心 的 距离 "和 步骤 (3)* 将 每 个 数据 点 归 类 到 离 
它 最 近 的 那个 类 中 心 所 属 的 类 ” 。 而 Reduce 函数 则 负责 第 (4) 步 * 计 算 并 更 新 每 个 类 
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K - means 算法 Map 函数 
输入 : 


1-7 K-means 算法 过 程 图 


1. centers -KK 个 类 的 中 心 点 
2. dataset -分 配 由 该 Map 函数 处 理 的 样本 点 


输出 : 


<key,value> - key 为 某 样 本 点 所 属 的 类 编号 ,value 为 样本 点 的 值 


: FOR EACH sample IN dataset DO 


class - NULL 
min distance - MAX 


distance -calculateDistance (sample, center) 
IF class -- NULL OR distance € min distance THEN 
class -center.class 


1 

2 

3z 

4: FOR EACH center IN centers DO 
5 

6 

vå 

8 


min distance =distance 


9: END IF 
10: END FOR 

11: EMIT(class, sample 
12: END FOR 


) 


Map 函数 的 输入 有 两 个 , centers 和 dataset。 其 中 centers 为 个 类 的 中 心 点 ,在 
Job 第 一 次 运行 时 ,这 K 个 中 心 点 可 由 Main 函数 随机 初始 化 ,在 后 续 的 每 轮 迭 代 Job 
运行 时 ,需要 从 上 一 轮 和 迭代 产生 的 输出 文件 中 读 取出 上 一 轮 选 代 产 生 的 K 个 类 的 中 心 
点 。 这 些 中 心 点 可 以 通过 MapReduce 的 分 布 式 缓存 对 象 分 发 到 每 个 Map 函数 中 。 
dataset 为 全 部 样本 点 数据 的 一 个 分 片 ,被 分 配 到 一 个 Map 函数 中 进行 运算 。 代 码 第 
1 ~10 行 ,就 是 寻找 dataset 中 每 个 样本 点 最 近 ( 例如 欧式 距离 最 小 ) 的 中 心 点 ,并 将 这 


# 本 点 归 为 最 近 中 心 点 的 所 





值 传递 到 Reduce 阶段 。 








属 类 。 代 码 第 11 行将 每 个 样本 点 的 类 编号 和 样本 点 的 
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K -means 算法 Reduce 函数 


输入 : 

<key, S? - key 为 类 编号 ,5 为 属于 该 类 的 样本 点 集合 
输出 : 
file center -存储 中 心 点 的 文件 
file dataset -存储 样本 点 分 类 结果 的 文件 


center =NULL 
FOR EACH sample IN S DO 
center -updateCenter (sample, center) 
APPEND(file dataset, «key, sample?) 
END FOR 
APPEND(file center, center) 


OU wb PP 


Map 函数 的 输出 经 过 Shuffle 后 ,属于 同一 类 的 样本 点 会 进入 同一 个 Reduce 函数 。 
Reduce 函数 利用 同一 类 的 所 有 样本 点 完成 中 心 点 的 更 新 ,并 将 分 类 后 的 样本 点 和 更 新 
后 的 中 心 点 保存 到 HDFS 文件 中 。 在 K-means 算法 的 main 函数 中 ,只 要 对 每 轮 迭 代 产 
生 的 K 个 中 心 点 与 上 一 轮 产生 的 中 心 点 进行 比较 ,如 果 有 一 类 的 两 轮 中 心 点 距离 大 于 
指定 阔 值 , 则 继续 进行 下 一 轮 迁 代 ; 如 果 都 小 于 指定 阔 值 , 则 和 迭代 结束 ,此 时 , Reduce 
函数 输出 的 聚 类 结果 即 为 最 终结 果 。 当 然 ,为 了 避免 迭代 无 法 停止 ,我 们 也 可 以 设 定 
一 个 最 大 和 迭 代 次 数 以 强制 迭代 停止 。 

由 上 面 我 们 介绍 的 K-means 算法 的 MapReduce 实现 可 以 看 出 ,每 一 次 迭代 过 程 都 
需要 启动 一 个 完整 的 MapReduce 作业 ,这 一 启动 过 程 就 需要 消耗 一 定 的 资源 。 而 每 一 
轮作 业 结 束 ,计算 结果 都 需要 写 人 HDFS, 下 一 次 迭代 需要 再 次 从 HDFS 读 取 该 文件 ， 
这 种 模式 要 消耗 大 量 的 磁盘 和 网 络 I0。 而 以 上 两 个 问题 是 由 Hadoop 本 身 系统 架构 决 
定 的 ,通过 任何 的 算法 优化 都 不 能 避免 。 在 参考 文献 [8 ] 中 ,作者 比较 了 基于 
MapReduce ffl Spark 的 K-means 算法 程序 的 性 能 ,如 图 1-8 所 示 。 左 图 显示 的 是 在 同等 
条 件 下 第 一 次 迭代 和 第 一 次 之 后 的 每 次 迭代 所 消耗 的 时 间 。 由 于 MapReduce 每 次 迭 
代 都 需要 从 磁盘 读 取 和 向 磁盘 写 人 数据 ,因此 都 需要 消耗 较 长 的 时 间 , 且 相差 不 大 。 
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图 1-8 MapReduce 与 Spark 实现 K-means 算法 性 能 的 比较 
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而 Spark 充分 发 挥 了 内 存 的 作用 ,在 第 一 次 迭代 加 载 完 数据 到 内 存 后 ,后 续 的 每 次 迭代 
只 需要 很 少 的 时 间 。 因 此 ,在 右 图 中 可 以 看 到 每 轮 平 均 迭 代 时 间 ,Spark 比 MapReduce 
有 了 极 大 降低 。 


1.2.3 针对 Hadoop 的 改进 





针对 Hadoop 自身 性 能 上 的 不 足 , Hadoop 领域 相关 的 开发 者 也 尝试 在 Hadoop 的 基 
础 上 进行 多 方面 的 改进 ,试图 解决 Hadoop 的 性 能 问题 。 下 面 我 们 以 两 个 比较 知名 的 
技术 简要 介绍 下 这 方面 的 改进 成 果 及 其 局 限 性 。 

* Twister; 迭代 式 MapReduce 计算 框架 

Twister 是 由 美国 印第安 纳 大 学 开发 的 一 个 轻 量 级 迭代 式 MapReduce 计算 框架 。 
该 架构 主要 由 3 部 分 组 成 : Twister Driver Broker Network ‚Twister Daemon。 其 中 Twister 
Driver 负责 驱动 整个 系统 的 MapReduce 计算 。Broker Network 是 一 个 独立 的 模块 ,负责 
所 有 消息 和 数据 的 传递 。Twister Daemon 运行 在 每 个 工作 节点 上 ,负责 管理 工作 节点 
上 的 Map/ Reduce 任务 。 同 时 ,Twister Daemon 与 Broker Network 相连 ,接受 Broker 
Network 的 数据 和 指令 。 相 对 于 原生 的 Hadoop 架构 ,Twister 在 处 理 迭 代 运 算 上 主要 做 
了 两 方面 的 改进 。 

(1) 增加 Broker Network 模块 提高 迭代 计算 时 的 数据 传输 效率 。Twister 将 Map 
处 理 的 中 间 结 果 存放 于 分 布 式 内 存 中 ,并 由 Broker Network 传递 给 Reduce 任务 节点 。 
Reduce 任务 完成 后 ,所 有 由 Reduce task 产生 的 结果 通过 一 个 combine 操作 进行 统一 归 
并 ,归并 的 结果 由 代码 经 过 条 件 判 断 来 决定 是 否 需要 进行 下 次 迭代 。 需 要 迭代 的 数据 
同样 通过 Broker Network 传 给 Map 任务 节点 反复 进行 。 

(2) 增加 Task Pool 提高 每 轮 迭 代 的 作业 启动 效率 。 为 了 避免 每 次 迭代 都 进行 耗 
时 较 长 的 创建 Task 操作 ,Twister 引入 了 一 个 Task Pool。 在 Task Pool 中 维护 了 若干 已 
创建 且 不 终止 的 Task 实例 ,每 次 迭代 过 程 都 是 从 Task Pool 中 取出 一 个 Task 进行 ,从 
而 避免 创建 Task 时 JVM 启动 的 性 能 消耗 。 

IR Twister 在 并 行 迭 代 算法 上 进行 了 大 胆 的 尝试 ,但 Twister 本 质 上 还 是 基于 
MapReduce 模型 的 ,所 以 ,Twister 不 能 完全 克服 MapReduce 的 缺陷 。 首 先 ,Twister 没有 
底层 的 分 布 式 文件 系统 ,中 间 结 果 全 部 存放 于 分 布 式 内 存 中 。Twister 假设 内 存 足 够 
大 ,中 间 数 据 可 以 全 部 放 在 内 存 中 ,但 这 在 实际 应 用 环境 中 并 不 现实 。 其 次 ,Twister 同 
样 只 有 两 个 函数 ( Map/ Reduce) ,计算 模型 抽象 程度 不 够 。 无 法 适应 复杂 的 计算 表述 。 

* HaLoop: 基于 Hadoop 改进 的 迭代 计算 框架 

HaLoop 也 是 在 Hadoop 基础 上 扩展 而 来 的 ,可 以 说 是 Hadoop 的 一 个 变 体 。 为 了 适 
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应 迭代 算法 的 应 用 场景 ,HaLoop 在 基本 Hadoop 架构 上 作 了 很 多 改进 ,包括 : 

(1) 在 主 节点 增加 一 个 新 的 迄 代 控制 模块 ,负责 不 断 启动 MapReduce 计算 作业 ， 
及 根据 终止 条 件 判断 是 否 结束 渤 代 。 

(2) 专门 为 迁 代 运算 设计 并 实现 了 一 个 新 的 Task Scheduler, 并 充分 利用 Data 
Locality 特性 提高 计算 速度 。 

(3) 数据 在 各 个 Task Tracker 中 会 进行 缓存 和 建立 数据 索引 ,提高 送 代 计算 效率 。 

(4) 改进 计算 模式 ,将 所 有 迭代 式 任务 抽象 为 : Ri,, = RU (Ri DIL) ,其 中 心 为 
BLA LL 为 送 代 中 的 不 变数 据 ,及 为 第 ; 次 迭代 结果 ,同时 ,为 这 种 抽象 模式 增加 了 多 个 
编程 接口 以 简化 迭代 式 算法 的 开发 实现 。 

虽然 HaLoop 在 Hadoop 的 架构 上 和 计算 模式 上 都 作 了 相应 的 改进 ,但 是 依然 不 能 
根本 解决 Hadoop 的 性 能 问题 。 首 先 ,在 计算 模式 上 ,HaLoop 仍然 是 Map + Reduce 的 循 
环 异 式 ,计算 模型 抽象 程度 同样 不 够 高 。 另 外 ,没有 对 迭代 中 重复 使 用 的 数据 有 一 个 统 
一 的 抽象 表达 。 虽 然 可 以 将 中 间 重 复 使 用 的 数据 放 入 缓存 ,但 这 些 数据 对 用 户 仍然 是 不 
可 见 的 ,用 户 不 能 对 这 些 中 间 结 果 数据 进行 自 定义 的 操作 ,因此 ,使 用 场景 非常 有 限 。 
虽然 这 些 基于 Hadoop 基础 的 改进 最 终 都 失败 了 ,但 这 些 改进 中 的 一 些 关键 技术 
为 后 来 者 提供 了 很 有 价值 的 借鉴 ,例如 中 间 结 果 的 分 布 式 内 存 存储 方式 .新 的 抽象 计 
算 模式 等 。 这 些 思想 和 关键 技术 的 积累 ,最 终 带 来 了 革命 性 的 Spark 技术 的 出 现 。 
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1.3.1 Spark 的 出 现 与 发 展 


2009 年 ,美国 加 州 大 学 伯克利 分 校 ( University of California Berkeley) AMPLab 实验 
室 的 博士 研究 生 Lester Mackey 在 使 用 Hadoop 实现 机 器 学 习 算法 设计 时 也 遇 到 了 
Hadoop 编程 模型 过 于 简单 和 执行 模式 低 效 的 问题 。Lester 在 使 用 Hadoop 设计 机 器 学 
习 算 法 时 发 现 ,他 首先 要 想 的 不 是 如 何 提高 算法 本 身 的 效率 ,而 是 迎合 过 于 简单 的 
MapReduce 计算 模式 ,并 且 还 无 法 绕 开 MapReduce 的 性 能 缺陷 。 为 此 ,Lester 向 同 在 
AMPLab 实验 室 的 研究 生 Matei Zaharia 寻求 帮助 。Matei 也 是 Hadoop 的 一 个 重要 贡献 
者 ,对 Hadoop 的 运行 机 制 有 着 深刻 的 理解 。 在 听取 了 Lester 的 意见 后 , Matei 总 结 了 
Hadoop 的 不 足 ,并 开始 设计 Spark'” 的 第 一 个 版 本 。 

Matei 在 设计 Spark 时 ,首要 目标 就 是 要 避免 运算 时 出 现 过 多 的 网 络 和 磁盘 10 开 
销 。 因 此 ,他 将 Spark 的 核心 数据 结构 设计 为 弹性 分 布 式 数据 集 ( Resilient Distributed 
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Dataset,RDD) 。RDD 是 Spark 的 核心 数据 结构 ,用 户 可 以 使 用 RDD 将 一 部 分 数据 集 
缓存 在 内 存 中 ,使 其 能 在 并 行 操 作 中 被 有 效 的 重复 使 用 。Spark 为 RDD 提供 了 一 系列 
丰富 的 算 子 ,也 就 是 对 RDD 进行 操作 的 函数 。 同 时 ,为 了 避免 Hadoop 架构 中 启动 和 
调度 作业 消耗 过 大 的 问题 ,Spark 采用 基于 有 向 无 环 图 ( Directed acyclic graph, DAG) AY 
任务 调度 机 制 进行 优化 ,这 样 可 以 将 多 个 阶段 的 任务 串联 或 者 并 联 执行 ,无 须 将 每 一 
阶段 的 中 间 结 果 数 据 存 到 HDFS 上 。 这 些 原 理 和 机 制 的 具体 内 容 ,我们 将 在 后 面 的 章 
节 中 详细 介绍 。 
Spark 是 踩 在 Hadoop 这 种 已 经 非常 优秀 的 技术 的 肩膀 上 而 出 现在 世人 眼中 的 , 它 
解决 了 Hadoop 在 复杂 运算 场景 中 的 性 能 问题 ,并 以 此 为 基础 扩展 出 了 MDlib 机 器 学 习 
PË Spark Streaming 流 式 计算 模式 和 GraphX 图 计算 模式 , 全然 要 实现 大 数据 处 理 多 种 
计算 模式 的 一 站 式 解决 方案 ,因此 ,很 快 得 到 了 业界 的 认可 。 以 前 支持 Hadoop 技术 的 
一 些 大 型 和 新 兴 公 司 , 例如 Yahoo, Intel , Cloudera, IBM 等 ,都 开始 全 力 使 用 和 推进 
Spark 技术 。 我 们 梳理 了 Spark 技术 在 最 近 5 年 发 展 与 演进 中 的 重要 事件 ,以 便于 大 家 
了 解 Spark 技术 从 简单 的 技术 雏形 到 完整 的 技术 架构 的 发 展 历程 。 
V 2009 年 : Spark 项 目 诞生 。 
V 2010 4E; Spark 对 外 开源 ,成 为 Apache 社区 项 目 。 
V 2014 年 2 月 : Databricks 发 布 了 Spark 的 第 一 个 版 本 0. 9.0,Spark Streaming 结 
T alpha 版 本 ,同时 新 增加 了 alpha 版 本 组 件 GraphX , MLlib 在 这 个 版 本 中 增 
加 了 常用 算法 ,Spark 也 成 为 Apache 顶级 项 目 。 

V 2014 年 2 月 : 大 数据 公司 Cloudera 宣布 将 以 Spark 框架 取代 MapReduce, 

V 2014 年 4 月 : Apache Mahout 不 再 使 用 MapReduce 算法 支持 , 全 部 改 用 Spark 








作为 计算 引擎 。 
V 2014 年 5 月 : Spark 的 第 一 个 正式 版 本 1.0 发 布 ,并 推出 了 Spark SQL 这 个 新 
项 目 。 


V 2014 年 9 H : Spark 的 新 版 本 1.1.0 发 布 。 

V 2014 年 12 月 : Spark 发 布 1.2 版 本 ,GraphX 结束 alpha 版 本 ,对 外 正式 发 布 。 

V 2015 年 6 月 : IBM 宣布 投入 3500 名 研究 人 员 加 入 Spark 社区 ,并 建立 Spark 技 
术 中 心 。 

V 2016 4E 1 H: Spark 发 布 1.6 版 本 ,提升 性 能 ,并 在 DataFrame 之 后 增加 
Dataset API。 

我 们 可 以 看 到 ,Spark 的 发 展 速度 和 势头 远 远 超过 了 已 略 显 疲 态 的 Hadoop。 从 目 
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前 的 形势 看 , 可 能 在 很 快 的 一 段 时 间 内 ,Spark 将 全 面 取代 Hadoop (尤其 是 其 中 的 
MapReduce 计算 模式 ) 。 为 了 直观 地 说 明 这 一 趋势 ,我 们 用 两 组 对 比 数据 来 展示 。 

图 1-9 是 Google 趋势 中 计算 机 科学 类 别 下 Spark( 点 线 ) 和 Hadoop( 实 线 ) 两 个 关 
键 词 的 搜索 热度 趋势 。 我 们 可 以 看 到 ,虽然 从 2009 年 至 今 ,Hadoop 的 搜索 热度 整体 上 
还 是 高 于 Spark ,但 是 Spark 的 增长 趋势 确实 明显 快 于 Hadoop。 尤 其 是 在 2015 年 6 H 
之 后 ,Spark 的 关注 度 已 经 超过 了 Hadoop。 
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图 1-9 Hadoop 与 Spark 搜索 热度 图 
图 1-10 是 Redmonk 统计 的 在 全 球 最 为 活跃 的 程序 员 交 流 社区 Stack Overflow 上 大 
数据 相关 技术 的 标签 数量 ,该 数量 代表 了 某 项 技术 在 程序 员 中 的 热度 。 我 们 可 以 看 
到 ,Spark 的 关注 度 增长 迅猛 ,并 且 在 2015 年 伊始 就 显著 地 高 于 MapReduce 了 。 


Big Data activity on Stack Overflow 
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1-10 MapReduce 与 Spark 在 Stack Overflow 的 热度 图 


以 上 这 两 项 数据 充分 说 明了 Spark 已 经 成 为 当今 大 数据 领域 最 为 活跃 .最 为 热门 
的 关键 性 基础 技术 。 
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1.3.2 Spark 协议 族 


AMPLab 实验 室 在 Spark 项 目的 初始 阶段 就 将 其 发 展 目标 定 为 "One stack to rule 
them all” ,也 就 是 说 Spark 的 目标 是 将 批 处 理 、 交 互 式 处 理 \ 流 式 处 理 、 各 种 机 器 学 习 算 
法 、 图 形 计算 、SQL 查询 等 全 部 融合 到 一 个 软件 栈 中 ,同时 ,还 要 与 目前 成 熟 的 Hadoop 
技术 组 件 有 很 好 的 结合 。 因 此 ,Spark 在 其 发 展 过 程 中 不 断 丰 富 和 完善 了 一 系列 支持 
各 类 大 数据 处 理 场景 的 技术 族 , 以 满足 不 同业 务 需 求 ,这 些 技术 族 有 机 构成 了 一 个 协 
议 栈 ,如 图 1-11 所 示 。 其 中 蓝 色 部 分 为 Spark 自身 技术 族 , 灰 色 部 分 为 可 协同 工作 的 
外 部 技术 , 受 篇 幅 所 限 , 在 这 里 我 们 主要 介绍 Spark. 自身 技术 ,对 其 他 相关 技术 感 兴 趣 
的 读者 可 以 查阅 相关 资料 。 


分 析 工具 Hive Spark SQL| | SparkR | | Graphx || MLIib 
编程 模型 MES Spark/Spark Straming 






































rh ef HDFS Tachyon 
文件 存储 (Hadoop Distributed File System) (In-Memory File System) 
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图 1-11 Spark 技术 族 


。 Mesos: Mesos 位 于 整个 协议 栈 的 最 底层 ,负责 集群 资源 的 管理 。Spark 集群 支 
持 运 行 多 种 不 同 的 计算 框架 ,例如 Spark , Hadoop „Storm, MPI 等 。 这 就 需要 对 
集群 资源 进行 分 配 、 调 度 和 监控 ,以 合理 地 将 资源 分 配给 其 上 运行 的 每 个 框 
架 。Mesos 就 是 为 支持 这 一 目标 实现 的 技术 ,其 提供 了 跨 应 用 、 跨 框架 的 资源 
隔离 和 共享 ,并 支持 高 效 的 资源 任务 调度 。 

© Tachyon; Spark 在 设计 之 初 ,就 支持 处 理 存 放 在 HDFS 中 的 数据 。 同 时 ,Spark 
开发 团队 也 考虑 到 基于 磁盘 10 的 HDFS 文件 系统 可 能 很 难 应 对 性 能 要 求 更 高 
的 计算 场景 ,因此 ,设计 和 实现 了 基于 分 布 式 内 存 的 高 性 能 文件 系统 Tachyon。 
简单 来 看 ,可 以 将 Tachyon 视 为 用 分 布 式 内 存 蔡 代 磁 盘 的 “新 型 HDFS" 系统 
(目前 Tachyon 已 更 名 为 Alluxio)。 

* Spark Core; Spark Core 是 Spark 整个 计算 平台 的 计算 执行 引擎 ,实现 了 包括 任 
务 调度 ,内存 管理 故障 修复 .序列 化 和 压缩 在 内 的 核心 基础 功能 。Spark Core 
将 分 布 式 数据 统一 抽象 为 弹性 分 布 式 数据 集 ( Resilient Distributed Datasets , 
RDD) ,并 实现 了 多 种 构建 和 操作 RDD 的 API 接口 。Spark Core 采用 函数 式 编 
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程 语言 Scala 编写 而 成 ,同时 支持 Scala Python Java 编写 Spark 程序 。 

* Spark Streaming: Spark Streaming 是 Spark 处 理 大 规模 流 式 数据 的 技术 组 件 。 
Spark Streaming 按时 间 片 将 不 断 到 达 的 流 式 数 据 构 建成 小 片 的 RDD ,然后 以 细 
时 间 粒 度 的 批 处 理 模式 实现 流 式 计算 。 

© Spark SQL: Spark SQL 是 Spark 处 理 结构 化 数据 的 技术 组 件 。 通 过 Spark SQL, 
可 以 使 用 SQL、HQL( Hive Query Language) 中 的 关系 型 查询 表达 式 对 数据 进行 
处 理 。Spark SQL 支持 多 种 类 型 的 数据 格式 ,包括 Hive X, JSON , Parquet 格式 
文件 等 。 

* MLlib: MLlib 是 基于 Spark 的 一 个 并 行 机 器 学 习 算 法 库 。MLlib 提供 了 多 种 类 
型 的 机 器 学 习 算法 ,包括 分 类 、 聚 类 ,回归 ,协同 过 滤 等 。 

© GraphX: GraphX 是 一 个 支持 大 规模 图 计算 的 并 行 计算 库 。 图 的 表达 和 运算 有 
其 特殊 性 ,因此 ,GraphX 在 原生 Spark RDD 的 API 上 进行 了 扩展 ,提供 更 加 适 
合 图 计算 的 API, 并 实现 了 多 种 图 算法 ,包括 PageRank Triangle 计算 等 。 

。 SparkR: R 语言 是 目前 最 为 流行 的 数据 分 析 开 源 软 件 之 一 ,但 R 语言 的 单机 运 
行 环境 能 够 计算 的 数据 量 有 限 。 为 了 支持 掌握 R 语言 的 大 量 分 析 人 员 利 用 
Spark 的 能 力 处 理 海量 数据 ,Spark 技术 团队 提供 了 SparkR 技术 组 件 , 用 户 可 以 
通过 R 中 的 指令 和 函数 对 Spark RDD 进行 操作 ,SparkR 负责 将 这 些 R 语句 翻 
译 成 可 执行 的 Spark 程序 ,完成 对 海量 数据 的 处 理 。 


1.3.3 Spark 的 应 用 及 优势 


Spark 推出 后 ,由 于 其 高 性 能 和 高 灵活 性 的 优点 ,被 很 多 公司 和 机 构 用 于 替代 
MapReduce 进行 数据 挖掘 和 机 器 学 习 等 相关 工作 。 在 这 里 ,我 们 以 Twitter 应 用 Spark 
进行 数据 分 析 的 实例 来 简要 展示 一 下 Spark 的 优势 。 

Twitter 是 一 个 提供 社交 网 络 服务 的 网 站 ,2014 年 的 Twitter 公布 的 公开 数据 显示 ， 
该 网 站 拥有 超过 2.4 亿 的 月 活跃 用 户 数 ,这 些 用 户 每 天 会 发 表 约 5 亿 条 推 文 ,每 天 需 
处 理 约 16 亿 的 网 络 搜索 请 求 ,这 些 访问 和 操作 每 天 会 产生 超过 100TB 的 压缩 数据 。 
Twitter 的 数据 分 析 师 每 天 要 对 这 些 海量 数据 进行 深入 分 析 , 以 支持 广告 业务 优化 、 搜 
索 优化 .好 友和 内 容 推 荐 ,以 促进 公司 的 用 户 和 收入 增长 。 具 体 来 说 ,在 Twitter 上 , 当 
一 个 用 户 关 注 另 一 个 用 户 时 会 产生 一 条 “Follow” 记录 。 对 于 Twitter 来 说 ,用 户 之 间 的 
关注 关系 对 于 用 户 的 分 类 ,协同 过 滤 等 都 具有 重要 的 意义 ,因此 ,利用 存储 的 数据 对 关 
注 关系 进行 运算 是 Twitter 中 的 重要 基础 计算 。 下 面 我 们 以 一 个 最 基础 的 计算 实例 来 
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说 明 Twitter 使 用 Spark 后 获得 的 好 处 。 

Twitter 中 的 一 个 功能 是 提供 被 关注 用 户 数 的 用 户 排行 榜 , 即 按 关注 某 用户 的 用 户 
数 从 大 到 小 排序 。 为 了 计算 这 个 排行 ,需要 用 到 两 个 数据 源 : D“ Raw Users”, 记 录 了 
用 户 标识 ,使 用 的 语言 等 个 人 信息 ; QD" Raw Follows” ,记录 了 用 户 间 的 关注 关系 ,包括 
关注 者 的 标识 和 被 关注 者 的 标识 。 在 Spark 出 现 之 前 ,Twitter 公司 是 使 用 Hadoop 技术 
族 中 的 Pig 脚本 为 分 析 工 具 , 计 算 过 程 如 图 1-12 所 示 。 





( Raw Users ) 


Raw Follows ) 





foreach, filter,generate | foreach, filter,generate,distinct 





( {user id,language} J (follower id.followee id}) 





join 
{user id.language, follower id} 


i group. foreach, flatten,count 


{user id.language, follower id} 


i group all,top 


{user id,language,count} 


图 1-12 Twitter 使 用 Pig 处 理 社交 关系 图 

Pig 脚本 首先 要 将 " Raw Users" f" Raw Follows "按照 需求 条 件 进行 过 滤 (fiter) 去 
重 (distinct) 等 操作 ,然后 对 两 类 数据 进行 联结 (join) 操作, 然后 对 联结 后 的 数据 进行 统 
计 得 到 排行 榜 。 这 其 中 的 每 一 步 Pig 操作 都 将 转化 为 多 个 MapReduce 作业 , 这 些 
MapReduce 作业 都 要 从 HDFS 上 读 取 数 据 再 将 结果 输出 到 HDFS, 然后 进行 下 一 个 作 
业 。 虽 然 Pig 在 将 操作 转化 为 MapReduce 作业 上 做 了 多 方面 的 优化 ,但 Twitter 在 处 理 
PB 级 原始 数据 时 仍然 需要 花费 大 量 的 时 间 。 在 Spark 出 现 后 , Twitter 公司 转 而 使 用 
Spark 对 用 户 关注 关系 进行 分 析 , 对 于 上 面 同样 的 分 析 目 标 , Spark 的 计算 过 程 如 
图 1-13 所 示 。 

从 计算 过 程 我 们 可 以 看 到 ,由 于 Spark 提供 丰富 的 计算 算 子 ,使 得 Spark 对 数据 的 
操作 更 加 简洁 明了 。 另 外 ,在 进行 filter join reduceByKey 等 操作 时 ,Spark 采用 “惰性 ” 
求 值 的 方式 , 即 对 数据 的 操作 并 不 立即 执行 ,而 是 仅仅 记录 下 转换 操作 的 数据 对 象 。 
只 有 当 需 要 有 返回 结果 时 , 才 真 正 执行 。 这 就 使 得 Spark 在 进行 数据 操作 时 可 以 大 大 
减少 数据 的 读 取 操 作 , 从 而 提高 运行 效率 。 图 1-14 展示 了 Twitter 测试 获得 的 Spark 和 
Pig 的 计算 性 能 对 比 。Twitter 使 用 了 一 小 一 大 两 个 数据 集 ,其 中 Raw Users 数据 均 为 
430GB ,而 Raw Follows 数据 则 分 别 为 15GB 和 466GB。 对 于 每 次 测试 ,记录 了 任务 完成 
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( Raw Users ) ( 
filter,map | 


( {user id,language} ) 


Raw Follows ) 





| flatMap.map.distinct 


(follower id,followee id) 












{user id,language. follower id} 


reduceByKey 


{user id,language. follower id} 
top 


{user id,language,count} 


图 1-13. Twitter 使 用 Spark 处 理 社交 关系 图 
所 消耗 的 CPU 时 间 ,及 用 户 实 际 感 知 的 Wall-Clock 时 间 。 从 结果 图 中 我 们 可 以 看 到 ， 


相 比 性 能 已 经 在 原始 MapReduce 程序 基础 上 进行 了 大 量 优化 的 Pig, Spark 仍然 能 带 来 
2 倍 以 上 的 性 能 提升 。 


























WPig 








分 钟 








分 钟 


一 
CPU 时 间 





Wall-Clock 时 间 





图 1-14 Twitter 使 用 Spark 后 的 性 能 提升 
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在 上 一 章 我 们 简要 介绍 了 将 人 们 引入 大 数据 时 代 的 火种 一 一 Hadoop 技术 ,以 及 这 
项 技术 在 处 理 复杂 运算 时 的 局 限 性 。 同 时 ,我 们 通过 一 个 简单 的 K-means 算法 对 比 ， 
展示 了 Spark 相 比 Hadoop 的 优势 。 相 信 大 多 数 人 看 到 这 里 ,都 会 “食指 大 动 " 想 尝 一 
尝 Spark 的 鲜 了 。 与 Hadoop 复杂 的 安装 过 程 不 同 ,Spark 提供 了 一 个 非常 简单 的 单机 
运行 环境 供 初 学 者 使 用 。 在 这 一 章 里 ,我 们 就 带 着 大 家 一 步 一 步 地 从 安装 和 使 用 
Spark 到 编写 和 运行 Spark 程序 ,再 到 查看 Spark 的 运行 状况 ,亲身 体验 下 简洁 高 效 的 
Spark 技术 。 


2.1 安装 和 使 用 Spark 


在 本 节 中 ,我 们 主要 介绍 如 何 搭建 单机 版 的 Spark ,用 于 学 习 和 调试 Spark 程序 。 
因为 我 们 并 不 会 用 这 个 学 习 环境 进行 大 数据 量 的 处 理 , 因 此 ,可 以 不 需要 安装 Cygwin, 
HDFS 等 环境 。 相 比 安装 复杂 的 Hadoop, Spark 单机 版 环境 的 安装 非常 简单 。 可 以 毫 
不 夸张 地 说 ,在 安装 文件 已 下 载 就 绪 的 前 提 下 ,你 可 以 在 5 分 钟 内 快速 搭建 一 个 单机 
版 的 Spark 环境 进行 体验 。 

















2.1.1 安装 Spark 


Spark 的 设计 目标 是 部 署 于 运行 Linux 的 服务 器 集群 进行 大 数据 处 理 , 因 此 ,在 
Linux 环境 下 的 安装 非常 简单 。 而 Mae OS X 系统 是 基于 Unix 开发 的 ,安装 Spark 的 过 
程 也 很 简单 。 相 比 之 下 ,要 在 目前 使 用 人 数 最 多 的 Windows 系统 上 运行 Spark 反而 略 
显 复杂 ,所 以 在 本 节 中 我 们 主要 以 Windows 环境 为 例 介 绍 Spark 的 安装 。 整 个 安装 过 
程 主要 分 为 4 个 步骤 : 安装 JDK, 安 装 Scala, 安 装 Spark ,安装 WinUtl。 在 Linux 和 Mac 
OS X 下 安装 Spark 只 需要 完成 前 3 步 即 可 。 
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1. 安装 JDK 

Spark 采用 Scala 语言 编写 ,而 Scala 程序 是 以 JVM 为 运行 环境 的 ,因此 , 需 先 安装 
JDK 以 支持 Spark 的 运行 。Spark 通常 需要 IDK 6.0 以 上 版 本 ,你 可 以 在 Oracle 的 JDK 
官网 上 (http:// www. oracle. com/ technetwork/ java/ javase/ downloads/ index. html) 下 
载 相 应 版 本 的 JDK 安装 包 ,如 图 2-1 所 示 。 需 要 注意 的 是 ,在 下 载 时 应 odi JDK” ZX 
包 , 而 不 是 JRE”。 在 我 们 这 个 示例 中 ,我 们 选择 的 是 JDK 7, 下 载 后 运行 二 进 制 可 执 
行文 件 ,按照 默认 配置 完成 安装 即 可 。 
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图 2-1 JDK 下 载 页 面 





2. 安装 Scala 

刚才 我 们 提 到 ,Spark 是 采用 Scala 语言 编写 的 ,因此 第 二 步 是 要 安装 Scala。Scala 
官网 的 下 载 页 面 (http:// www. scala-lang. org/ download/ ) 提供 了 多 个 版 本 的 Scala 下 
Ro HF Scala 各 个 版 本 之 间 兼 容 性 并 不 好 ,因此 下 载 时 一 定 要 注意 你 要 安装 的 Spark 
版 本 所 依赖 的 Scala 版 本 ,以 免 遇 到 一 些 难以 预知 的 问题 。 在 我 们 的 例子 中 ,是 要 安装 


30 第 2 章 体验 Spark 


目前 最 新 的 Spark 1.3.0 版 本 ,因此 ,我们 选择 下 载 所 需 的 Scala 2. 10.4 版 本 











选择 之 


前 的 历史 版 本 下 载 ,需要 先 从 下 载 页 面 中 点 击 All previous Scala Releases" Ef, HEA 
历史 版 本 列表 , 然后 选择 “2. 10. 4" 版 本 下 载 (http:// www. scala-lang. org/ files/ 








archive/ scala-2. 10. 4. msi) 。 下 载 后 按照 提示 一 步 一 步 执行 安装 即 可 
V 在 Windows 中 执行 命令 “cmd” ,启动 Windows 命令 行 环境 
V 在 命令 行 环境 中 ,输入 “scala” ,然后 敲 回 车 











V 如 果 看 到 如 图 2-2 所 示 成 功 启 动 Scala Shell 环境 , 则 说 明 安 装 成 功 ,然后 输入 


“exit” ,退出 Scala Shell 环境 


vV 如 果 启 动 Scala Shell 环境 失败 ,一般 只 需要 在 Windows 环境 变量 设置 界面 配置 


SCALA_HOME 环境 变量 为 Scala 的 安装 路 径 即 可 


a CAWindows\system32\cmd.exe - oa 


icrosoft Windows [hÆ 6.2.92001 ^ 
Kc> 2012 Microsoft Corporation。 保 留 所 有 权利 








: Users \hetatheta>scala 
n 2.18.4 CJava HotSpot¢(IM> 64-Bit Server UM. Java 1.8.0.8) 


o have them evaluated. 


nfornation. 


warning: there were 1 deprecation warning(s); re-run with -deprecation for detail 
s 


:Wsers\betatheta>, 


图 2-2 Scala 安装 成 功 验证 


3. 安装 Spark 


Spark 官网 ( http:// spark. apache. org/ downloads. html) 提供 了 各 个 版 本 的 安装 包 


为 搭建 学 习 试 验 环境 ,我 们 选择 下 载 预 编译 好 的 安装 包 , 例 如 spark-1. 
hadoop2.4. tgz ,如 图 23 所 示 

4. 安装 winutils 
HF Spark 的 设计 和 开发 目标 是 在 Linux 环境 下 运行 ,因此 ,在 Windows 4 























. 0-bin- 


机 环境 


(没有 Hadoop 集群 的 支撑 ) 中 运行 会 遇 到 winutils 的 问题 (一 个 相关 的 Issue 可 以 参见 
https ;// issues. apache. org/ jira/ browse/ SPARK-2356) 。 为 了 解决 这 一 问题 ,我 们 需要 





安装 winutils. exe ,具体 方 法 如 下 
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So onc Lightning-fast cluster computing 


Download ^ Libraries - ^ Documentation - ^ Examples Community ~ FAQ 


Download Spark 
The latest release of Spark is Spark 1.3.1, released on April 17, 2015 (release notes) (git tag) 
1. Chose a Spark release: | 1.3.0 (Mar 132015) $ 
2. Chose a package type: | Pre-built for Hadoop 2.4 and later $ 
3. Chose a download type: | Direct Download $ 
4. Download Spark: spark-1.3.0-bin-hadoop2.4.tgz 
5. Verify this release using the 1.3.0 signatures and checksums. 


图 2-3 Spark 下 载 


V 从 一 个 可 靠 的 网 站 下 载 winutils. exe( 我 们 选择 Hadoop 商业 发 行 版 Hortonworks 
提供 的 下 载 链接 http:// public-repo-1. hortonworks. com/ hdp-win-alpha/ winutils. 


exe) 。 

V 将 winutil. exe 拷贝 到 一 个 目录 ,例如 : E: \LearnSpark Win \bin 。 

V 按照 如 图 2-4 和 2-5 的 步骤 ,设置 Windows 系统 的 环境 变量 HADOOP_HOME 
Jj E: \LearnSpark win ( 注意 没有 bin) 。 
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图 2-4 进入 Windows 高 级 系统 设置 
至 此 ,在 Windows 下 安装 Spark 的 过 程 全 部 完成 。 


2.1.2 了 解 Spark 目录 结构 


Spark 安装 后 ,会 在 安装 目录 下 生成 一 系列 的 目录 ,其 中 的 一 些 重要 目录 为 : 

V bin 目录 下 是 使 用 Spark 时 常用 的 一 些 执行 程序 ,例如 我 们 进行 Spark 命令 交互 
环境 使 用 的 spark-shell。 

V conf. 目录 下 存放 的 是 运行 Spark 环境 所 需 的 配置 文件 。 
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HADOOP HOME 
E:\LearnSpark\win| 
RE 
系统 变量 (S) 
变量 值 i 
CLASSPATH 36JAVA_HOME%6Nib = 
ComSpec CAWindows\system32\cmd.exe 
FP.NO HOST.CH.. NO 
HADOOP HOME — E:\LearnSpark\win s 
FRW)... Ra. | Be | 
ae 





图 2-5 配置 Windows 环境 变量 
V data 目录 下 mllib 需要 的 一 些 测试 数据 。 
V e 目录 是 在 AWS 上 部 署 使 用 的 一 些 相关 文件 。 
V examples 目录 中 有 一 些 例子 的 源 代 码 和 测试 文件 。 
V lib 目录 下 存放 的 是 Spark 使 用 的 一 些 库 , 我 们 之 后 开发 spark 应 用 ,也 是 需要 
使 用 这 些 库 的 。 
V python 目录 是 使 用 python 相关 的 一 些 资源 。 
V sbin 目录 是 搭建 Spark 集群 所 需要 使 用 的 一 些 脚本 。 


2.1.3 使 用 Spark Shell 


就 像 HelloWorld 程序 基本 已 成 为 学 习 某 一 门 开发 语言 的 第 一 个 人 门 程序 一 样 ， 
WordCount 程序 就 是 大 数据 处 理 技术 的 HelloWorld。 下 面 我 们 就 以 使 用 Spark 统计 一 
个 文件 中 的 单词 出 现 次 数 为 例 ,快速 体验 一 下 便捷 的 Spark 使 用 方式 。 

* 启动 Spark Shell 环境 

在 Windows 文件 管理 器 中 , 切换 目录 到 Spark 安装 后 生成 的 spark-1. 3. 0-bin- 
hadoop2.4 目录 下 , 按 住 Shift 键 的 同时 点 击 鼠 标 右键 ,然后 使 用 左 键 点 击 “ 在 此 处 打开 
命令 窗口 ”"。 在 打开 一 个 命令 行 的 窗口 中 ,输入 “bin\spark-shell” ,就 可 以 启动 spark- 
shell 环境 ,如 图 2-6 所 示 。 

如 果 不 希 望 这 么 麻烦 地 切换 目录 ,而 是 希望 在 打开 一 个 命令 行 窗 口中 直接 运行 
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- -EE 


画 bin\spark-shell 






en properly. 
log4j/i.2/faq.htmlünoconfig for more in| 


ng Spark's default log4j profile: org/apache/spark/1log4j-defaults properties 
09:47:08 INFO SecurityManager: Changing view ac betatheta 
89:47:88 INFO SecurityManager: Changing modify acls to: betatheta 
89:47:68 INFO SecurityManager: SecurityManager: authentication disabled| 
isabled; us with view permissions: Set(betatheta); users with modil 
SetChetatheta> 
INFO HttpServer: Starting HITP Server 
INFO Server: jetty-8.y.z-SNAPSHOT 
Connector: Started SocketConnector80.0.0.0:51851 
89:47:89 uccessfully started service 'HIIP c "vent 
port 51851. | 
lelcome to 





图 2-6 启动 Spark Shell 


spark-shell ,那么 ,只 需要 在 Windows 环境 变量 中 将 上 面 的 spark-shell 所 在 的 路 径 加 入 
环境 变量 PATH 中 即 可 

。 建立 待 统计 的 单词 文件 

选择 一 个 已 存在 的 文本 文件 ,或 新 建 一 个 文本 文件 ,作为 待 统计 的 单词 文件 
E ; \LearnSpark \word. txt ,在 这 里 我 们 新 建 一 个 文件 ,内 容 为 : 


apple banana 
banana banana 


。 加 载 单词 文件 
执行 Spark 程序 需要 一 个 SparkContext 类 实例 ,在 Spark Shell 中 已 经 默认 将 

SparkContext 类 初始 化 为 对 象 实例 sc。 因 此 ,我 们 不 需要 再 去 初始 化 一 个 新 的 se, 直接 
输入 以 下 命令 使 用 即 可 : val file = sc. textFile(" E ; \\LearnSpark \\word. txt" ) 

该 行 命令 使 用 SparkContext 类 的 textFile 函数 ,加 载 待 统计 的 单词 文件 ,结果 如 
2-7 所 示 

。 统计 单词 出 现 次 数 

如 果 你 用 MapReduce 计算 框架 编写 过 WordCount 程序 , 那 你 一 定 能 体会 到 执行 一 
个 简单 的 单词 统计 功能 需要 数 十 行 代 码 的 不 便 。 而 利用 Spark 的 函数 式 编程 模式 ,我 
们 只 需要 一 行 Scala 语句 即 可 完成 单词 统计 功能 



































ER 
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cala> val file - textPile("E:\\LearnSpark\\word.txt"> 
INFO MemoryStore: ensureFreeSpace(159118> called with curMem=8] 


MemoryStore: Block broadcast_@ stored as values in menory] 
KB, free 265.0 MB) 
MemoryStore: ensureFreeSpace(22692> called with curMem=15| 


MemoryStore: Block broadcast_@_piece@ stored as bytes in 
- free 265.8 MB) 
gerInfo: Added broad _G_piece® in memory on 1| 
265.1 MB) 
50:15 INFO BlockManagerMaster: Updated info of block broadcast. 9. pie| 


Created broadc 9 fron textFile at <co 


f park.rdd.RDDIString] = E:\LearnSparkWword.txt MapPartitionsRDD| 
[1] at textFile at <console>:21 





图 2-7 加 载 单词 文件 


scala > val counts = file.flatMap (line => line.split (" ")).map (word => 


(word, 1)).reduceByKey (_ + _) 





这 行 代码 的 运行 结果 如 图 2-8 所 示 。 在 这 里 我 们 暂时 先 不 解释 这 行 代码 的 具体 含 
义 , 留 竺 在 后 面 的 章节 中 慢 慢 学 习 。 你 只 需要 体会 到 Spark 是 如 何 大 幅 简化 数据 处 理 


- 作 的 难度 即 可 





scala? val counts = file.flatMap(line =) line.split<" ">>. 
mapCword => (word, 125. 
reduceByKeyC + _> 
:51:58 INFO FileInputFormat: Total input paths to process : 1 
.apache.spark.rdd.RDDICString, Int?] = ShuffledRDD[4] at reduceByKey 


t <console>:25 





图 2-8 统计 单词 出 现 次 数 示 例 代码 
。 保存 结果 文件 
在 这 里 我 们 使 用 “E:\LeamSpark\counts. txt" 作为 输出 文件 。 需 要 
证 没有 和 输出 文件 同名 的 文件 或 者 是 文件 夹 ,如 果 存 在 则 需要 手动 删除 该 文件 : 
则 会 出 错 。 保 存 结果 文件 的 命令 如 下 所 示 : 






意 的 是 ,要 保 
oe 


i 





Scala? counts.saveAsTextFile("E: \\LearnSpark Wcounts .txt ") 

这 行 代码 的 运行 过 程 如 图 29 Bras 

下 面 我 们 来 看 一 下 最 后 的 输出 结果 ,count. txt 其 实 是 个 目录 ,在 该 目录 下 有 好 几 
个 文件 ,其 中 part-00000 和 part-00001 是 我 们 需要 的 结 呈 


JH 








: (apple,1) 
: (banana,3) 


part -00000 中 的 内 容 
part -00001 中 的 内 容 
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cala? counts.savefsTextFile("E: NNLearnSparkNscounts txt) 

5/05/84 89:53:15 INFO deprecation: mapred.tip.id is deprecated. Instead, use mal 
lpreduce .task.id 

5/85/84 89:53:15 INFO deprecation: mapred.task.id is deprecated. Instead, use ml 
preduce .task-attempt .id 

5/85/84 89:53:15 INFO deprecation: mapred.task.is.map is deprecated. Instead, ul 
e mapreduce.task.ismap 

5/85/84 89:53:15 INFO dep mapred.task.partition is deprecated. Instead| 
> use mapreduce.task.partition 

[5/05/04 09:53:15 INFO deprecation: mapred.job.id is deprecated. Instead, use ma 


: Starting jo vefisTextFile at <console>:2 


HS/@5/84 @9:53:15 INFO DAGScheduler: Registering RDD 3 Cmap at <console>:24) 
Got job B €savefisTextFile at <console>:26> 

vith 2 output partitions «allouLocal-false) 

5/05/04 09:53:15 INFO DAGScheduler: Final stage: Stage 1¢savefsTextFile at «con 

ole>:26> 

H5/05/84 89:53:15 INFO DAGScheduler: ts of final stage: List(Stage @> 

5/05/84 89:53:15 INFO DAGSchedule issing parents: List(Stage @> 

5/85/84 89:53:15 INFO DAGScheduler: Submitting Stage Ø (MapPartitionsRDDI3] at 

ap at €console?:24), which has no missing parents 

[5/05/04 89:53:15 INFO MenoryStore: ensureFreeSpace(3744) called with curMen-i81 

818, maxMem=278019448 

5/05/84 09:53:15 INFO MemoryStore: Block broadcast 1 stored as values in menory| 

estimated size 3.7 KB, free 265.0 MB? 

[5/05/04 89:53:15 INFO MenoryStore: ensureFreeSpace(265@) called with curMen-185| 

B54, naxHen-278019440 

[5/05/04 89:53:15 INFO MenoryStore: Block broadcast 1 pieceÜ stored as bytes in 

enory (estimated size 2.6 KB, free 265.0 MB) 

5/05/84 09:53:15 INFO BlockManagerInfo: Added broadcast 1 piece8 in memory on 1 

ocalhost :51876 (size: 2.6 KB, free: 265.1 MB) 


15/05/64 09:53:15 INFO TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have 
11 completed, from pool 

5/05/04 89:53:15 INFO DAGScheduler: Job Ø finished: saveAsTextFile at <console> 
26, took 8.613925 s 





2.2 编写 和 运行 Spark 程序 


通过 前 面体 验 Spark Shell ,我 们 已 经 感受 到 了 Spark 的 魅力 所 在 。 但 是 ,使 用 Shell 
输入 Scala 语句 可 以 解决 一 些 简单 的 问题 , 如果 要 实现 复杂 的 算法 ,还 是 需 
Spark 程序 。 下 面 我 们 就 来 介绍 下 如 何 使 用 Eclipse 来 搭建 编写 Spark 程序 的 开发 环境 
以 及 编译 ,打包 和 运行 Spark 程序 的 方法 








2.2.1 安装 Scala 插件 














[zt] 








为 Eclipse 的 安装 非常 简单 ,只 需要 从 Eclipse 官网 (http :// eclipse. org/ ) 下 载 
解压 即 可 使 用 ,因此 ,我 们 假定 在 您 的 电脑 上 已 经 安装 好 Ecplise 了 。 然 而 ,考虑 到 
Scala 插件 和 Eclipse 版 本 之 间 的 兼容 性 ,我 们 推荐 下 载 Kelper 版 本 的 Eclipse ,尤其 是 
不 要 使 用 Luna 版 本 的 Eclipse。 虽 然 Spark 支持 使 用 Java, Python 编写 程序 ,但 由 于 
Spark 原生 开发 语言 是 Scala, 基 于 Scala 的 Spark API 是 最 完善 ,更 新 最 快 的 ,因此 ,我 
们 建议 优先 选择 Scala 编写 Spark 程序 。Eclipse 默认 版 本 是 不 支持 Scala 的 ,因此 , 需 
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要 安装 Eclipse 的 Scala 插件 ,其 步 又 如 下 : 

© 在 Eclipse 中 选择 菜单 栏 中 的 “Help ”菜单 项 , 然 
后 点 击 “ Install New software”, 如 图 2-10 所 示 。 

。 在 打开 的 输入 框 中 ,输入 如 下 的 下 载 地 址 , 然 
后 输入 回 车 ,如 图 2-11 所 示 。 


http:// download.scala-ide.org/ sdk/ helium/ 
e38/scala210 /stable/ site 


。 选择 前 两 个 软件 包 , 然 后 点 击 " Next" 开始 安装 
Scala 插件 ,如 图 2-12 所 示 。 


e Install 


Available Software. 
Select a site or enter the location of a site. 





@ Welcome 

@® Help Contents 

IP Search 
Dynamic Help 
Key Assist... 
Tips and Tricks... 
Cheat Sheets... 


% Check for Updates 


Ctrl+Shift+L 


Map/Reduce 








3 Install New Software... 








© Installation Details 
fæ Edipse Marketplace... 
© About Eclipse 








图 2-10 Eclipse 248 Hii 


- c EN 


a 





Work with: 





http;//download.scala-ide.org/sdk/helium/e38/scala210/stable/sitel 

















1 


v Add... 
Find more software by working with the "Available Software Sites” preferences. 
[oe fiter text — ] 
图 2-11 输入 下 载 地址 
e Install - cmi 
Available Software. 


Check the items that you wish to install, 





Work with: | http://download.scala-ide.org/sdk/helium/e38/scala210/stable/site 








v|| Add. 








[type fiter text 

Name 

> RUM Scala IDE for Eckpom 

| [4 i Scala IDE for Eclipse development support 
b [110 Scala IDE for Eclipse Source Feature 

b [C100 Scala IDE plugins (incubation) 

b Di Sources 


Version 





Nm 








3 items selected 





Find more software by working with the “Available Software Sites” preferences. 


] 





Details 


[Z] Show only the latest versions of available software 

[v] Group items by category 

[.]8how only software applicable to target environment 

VI Contact all update sites during install to find required software 


[Z Hide items that are already installed 
What is already installed? 








© 


< Back 








Finish 

















图 2-12 ”选择 软件 包 
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。 安装 好 之 后 ,重启 Eclipse, 然 后 选择 Eclipse 菜单 栏 中 的 Window" 3E 309i , eft 
“Open Perspective”, 再 选择 * Other" ,如 图 2-13 所 示 。 


Java - Eclipse 





Hide Toolbar 
Open Perspective. >| 4% Debug 
Show View >| $2 Java Browsing 
Customize Perspective... 

Save Perspective As... 

Reset Perspective... 

Close Perspective 

Close All Perspectives 
Navigation. > 
Preferences 

























Other... 




















图 2-13 ”打开 新 视图 
e 在 弹出 的 对 话 框 中 选择 “Scala” ,进入 Scala 视图 ,如 图 2-14 所 示 。 





e Open Perspective - 7 
aa CVS Repository Exploring 
F Debug 
Bit 


&j Java (default) 
d Java Browsing 
Te Java Type Hierarchy 
@ JavaScript 
M Map/Reduce 
Plug-in Development 
Ra Resource 

Scala 
E Team Synchronizing 
XXML 





























2-14 进入 Scala 视图 


2.2.2 编写 Spark 程序 


编写 Spark 程序 ,总 体 可 以 分 为 3 步 : 首先 ,新 建 一 个 Scala 工程 ,然后 ,添加 Spark 
的 依赖 库 ,最 后 ,编辑 符合 需要 的 源 代码 。 
e 选择 菜单 栏 中 的 “ File” 菜单 项 , 从 下 拉 菜 单 中 选择 "New” ,然后 点 击 “ Scala 
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Project” 菜单 项 ,新 建 Scala 工程 ,如 图 2-15 所 示 。 


e 
[Fe] Edit Source Refactor Navigate Search Project Scala Run 




















输入 新 建 的 Scala 工程 名 字 , 例 如 “SimpleApp” , fA Jey gi ilr ^ Finish "按钮 ,如 


图 2-16 所 示 。 


右键 点 击 新 建 的 Scala 工程 “SimpleApp”, i f£ “ Build Path” 菜单 项 中 的 


1 JobClient.class [org.apache.hadoop...] 
2 Job.class [org.apache.hadoop.mapred..] 
3 WordCountjava [WordCount/src] 

4 LineReader.class [org.apache.hadoop...] 
Exit 


“Configure Build Path..." , [x] 2-17 所 示 。 


在 弹出 的 对 话 框 中 选择 "Java Build Path” 列表 项 ,然后 点 击 “ Add External 
JARs” 按钮 添加 Spark 依赖 库 。 将 目录 “spark-1.3.0-bin-hadoop2. 4\lib\”" 下 的 
“spark-assembly-1. 3. 0-hadoop2. 4. 0. jar" 文件 添加 到 “Java Build Path” 中 ,如 


图 2-18 所 示 。 


添加 成 功 后 可 以 在 “SimpleApp” 工程 列表 下 看 到 如 下 的 效果 ,如 图 2-19 所 示 。 
右键 点 击 “SimpleApp” 工程 下 的 “sre” 目录 , XE E" New” 菜单 项 下 的 “ Scala 


Object" 菜 单项 添加 源 代码 ,如 图 2-20 所 示 。 








新 建 Scala 工程 


Window Help 
New Alt+Shift+N > | G9 Scala Project 
Open File... F3 Project... 
Close CuliW |8? Package 
Close All Ctrl+shift+W | @ Scala Class 
Save Cus |G Scala Trait 
Save As... © Scala Object 
Save All Cultshit+s |@ Scala Package Object 
ERR 国 Scala Application 
C$ Folder 
, Move.. De 
回 Rename. & |. [piey Temgleie 
Ë) Refresh 5 ee 
Convert Line Delimiters To > 
pe 
D Prnt. Ctrl+P 
T3 Other... Cirian 
Switch Workspace » 
Restart 
ix Import... 
da Export... 
Properties Alt+Enter 
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e New Scala Project - oa 


Create a Scala project 
Create a Java project in the workspace or in an external location. 


Project name: | SimpleApp 




















Use default location 
Location: D:\workspace\SimpleApp Browse... 
JRE 
@Use an execution environment JRE: JavaSE-1.7 v 
Use a project specific JRE: jdk1.7.0.65 v 
OUse default JRE (currently 'jdk1.7.0 657) Configure JREs... 
Project layout 
O Use project folder as root for sources and class files 
@ Create separate folders for sources and class files Configure default... 
Working sets 
(Add project to working sets 


Working sets: v Seed. 











@ < Back Next > Cancel 




















2-16 ”输入 Scala 工程 名 称 

















New 
Go Into 
Open in New Window 
Open Type Hierarchy Fa 
Show In AlteShift+W » 
Copy CatC 
» iS Simple B3 | Copy Qualified Name 
Paste. Clav 
X Delete Delete. 
Build Path P| $h Link Source... 
Source Alt+Shift+S > | @3 New Source Folder... 
Refactor AbeshittsT » | oy [jos os source Folder 
ùs Import... Add External Archives... 
tA Export. Add Libraries... 








Build Project E& Configure Build Path... 











图 2-17 配置 编译 地 址 
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Java Build Path 























@ Source | i Projects | BA Libraries | 4; Order and Export] 








JARs and class folders on the build path: 





> BA JRE System Library ['avaSE-1.7] 
> mÀ Scala Library [2.10.4] 



























































Scala Organize Imports 


248 ”添加 Scala fK 


Java Build Path 





赖 库 























@ Source | i£ Projects | BÀ Libraries 





9x; Order and Export 








JARs and class folders on the build path: 





b m JRE System Library [JavaSE-1.7] 
b BA Scala Library [2.10.4] 








> @ spark-assembly-1.3.0-hadoop2.4.0,jar - DALearnS| 



































2-19 添加 Scala 依赖 























库 成 功 
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9 
a 
3 
i 











Open Type Hierarchy Fa 
Show In AlteShifteW » 


Copy Cul+C 











xaP5 
8 
3 
H 
t 
i 


Source Alt+Shift+s > 
Refactor Alt+Shift+T > 











QOWeveBAQqees AaB 


SEE 
1 
t 


2m Assign Working Sets... 
p@t Debug As n 
oa Run As » 
Validate 
Team » 
Compare With D 
Restore from Local History... 








Properties Alt+Enter 





图 2-20 rŒ Scala 对 象 
o 编辑 如 下 的 源 代 码 ,实现 WordCount 逻辑 。 


WordCount 程序 代码 

ds /* SimpleApp.scala * / 

2: import org.apache.spark.SparkContext 

3s import org.apache.spark .SparkContext ._ 

4: import org.apache.spark.SparkConf 

5: object SimpleApp ( 

6: def main(args: Array [String]) ( 

Te if(args.length!=2) { 

8: println ("error : too few arguments") 

95 sys.exit (1) 

10: ) 

Tis val conf = new SparkConf ().setAppName ("Simple Application"). 
setMaster ("local") 

212: val filePath -args (0) 

13% val sc =new SparkContext (conf) 

14: val file =sc.textFile(filePath, 2) .cache() 

15s val counts -file.flatMap (line => line. split (" ")).map (word => 
(word, 1)).reduceByKey ( + _) 

16: counts.saveAsTextFile (args (1)) 

17: } 


18: } 
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2.2.3 运行 Spark 程序 


为 运行 示例 程序 ,需要 指定 两 个 参数 : 四 输入 文件 的 路 径 ; @@ 输 出 文件 的 路 径 。 
因此 ,我 们 需要 按照 以 下 的 顺序 运行 示例 程序 。 
o 选择 ”Run Configuretions” ,添加 参数 ,如 图 2-21 所 示 。 









































HE Package Explorer 53 | OSes oe 
4 i$ SimpleApp 
4 9 src 
4 (default package) 
» [sss 
4 BA Scala Lil New , 
» di scale ^ Open B 
> Gi scald Open With , 
: B e Open Type Hierarchy Fa 
= P 
BÀ JRE S) Show In Alt+Shift+ W > 
4 BA Referen [È Copy Ctrl+C 
> @ spar fi Copy Qualified Name 
Ê Paste Ctrl+V 
X Delete Delete 
Build Path » 
Source Alt+Shift+S » 
Refactor Alt+Shift+T » 
Ès Import... 
tå Export. 
References , 
Declarations » 
d^ Refresh FS 
Assign Working Sets... 
Debug As » 
Run As , 1 Scala Application. AlteShift«X, S 
Team *| [Rm Configurations. 
Compare With » 
Replace With » 


Restore from Local History... 








Properties 
图 2-21 设置 程序 运行 参数 


o 在 弹出 菜单 中 选择 “New” 为 程序 新 建 运行 参数 ,如 图 222 所 示 。 
。 设置 参数 后 ,点 击 “Apply" 应 用 这 些 参数 ,如 图 2-23 所 示 。 
。 配置 完成 后 , 即 可 点 击 “SimpleApp. scala” 文 件 ,使 用 “Scala Appliction "方式 在 
Eclipse 中 运行 该 应 用 ,如 图 2-24 所 示 。 
在 程序 运行 过 程 中 ,Eclipse 会 输入 如 图 225 所 示 的 日 志 , 在 这 里 面 我 们 可 以 看 到 
一 些 Spark 作业 运行 过 程 中 的 简要 信息 ,这 些 过 程 我 们 将 在 后 面 的 章节 中 具体 给 大 家 
介绍 。 在 前 面 的 步骤 中 ,我 们 设置 了 程序 的 输出 路 径 是 E:\LeamSpark\count. txt, 因 
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Create, manage. and run configurations Q 
maox|ais- Configure launch settings from this dialog: 
[type filter text [3 - Press the ‘New’ button to create a configuration of the selected type. 
4 Eclipse Application [By - Press the ‘Duplicate’ button to copy the selected configuration. 
© Java Applet 
ms : 其 - Press the ‘Delete’ button to remove the selected configuration. 
Jv JUnit Jb - Press the ‘Filter button to configure fitering options. 
pisei - Edit or view an existing configuration by selecting it. 
Scala 
T Scala launch perspective settings from the "Perspectives" preference page. 
(^ Duplicate 
X Delete 
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Create, manage, and run configurations 
@ [Main]: Main type not specified 











gg x|ei- News: 
(© main 

Program arguments: 
E:\LearnSpark\word.ttt E:\LearnSpark\count.ta| 
























































Working directory: 
(€) Default: $(workspace loc:SimpleApp] 
Other: 





Workspace... File System... 





<> 
Filter matched 9 of 9 items Apply 


9 Run 
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此 ,在 电脑 上 打开 这 个 文件 就 能 看 到 单词 计数 的 结果 。 到 这 里 ,我 们 就 成 功 地 使 用 
Eclipse 编写 了 一 个 Spark 程序 ,并 在 本 地 环境 中 运行 成 功 。 同 样 ,我 们 也 可 以 把 程序 
打包 为 Jar 包 , 上 传 到 Spark 集群 中 运行 ,这 里 我 们 就 不 再 袭 述 , 有 兴趣 的 读者 可 以 参 
考 Spark 官方 文档 详细 了 解 在 集群 中 的 运行 方法 。 





> mÀ JRE Systen! 
4 mÀ Refer 
> Gd spark- 
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i T 


ER (1) [Scala Application] C:\Program Files\ava\jre€\bin\javaw.exe (2015 年 5 月 1 日 上 午 9:38:38) 








15/05/11 09:38:42 INFO TaskSchedulerimpl: Adding task set 1.0 with 2 tasks 
18/06/11 ourassaz TAPO ‘TaskSetManage! 
15/05/11 09:38:42 INFO Executor: Running task 0.0 in stage 1.0 (TID 2) 

15/05/11 09:38:42 INFO ShuffleBlockFetcherIterator: Getting 1 non-empty blocks out of 2 blocks 
15/05/11 09:38:42 INFO ShuffleBlockFetcherIterater: Started 0 remote fetches in 15 ms 

15/08/11 09:38:42 INFO FileOurputCommitter: Saved output of task 'attempr 2015051109: 
15/05/11 09:38:42 INFO SparkHadoopWriter: attempt 201505110938 0001 m 000000 2: Committed 

15/05/11 09:38:42 INFO Executor: Finished task 0.0 in stage 1.0 (TID 2). 886 bytes result sent to driver 











15/08/11 09:38:42 INFO Executor: Running task 1.0 in stage 1.0 (TID 3) 
15/05/11 09:38:42 TaskSetManager: Finished task 0.0 in stage 1.0 (TID 2) in 469 ms on localhost (1/2) 
15/05/11 ShuffleBlockFetcherIterater: Getting 2 non-empty blocks out of 2 blocks 
15/05/11 INFO ShuffleBlockFetcherIterator: Started 0 remote fetches in 0 ms 
15/05/11 INFO 
15/05/11 09:38:42 INFO SparkHadoopWrite: 
15/08/11 09:38:42 INFO Executor: Finished task 1.0 in stage 1.0 (TID 3). 886 bytes result sent to driver 
15/05/11 09:38:42 INFO TaskSetManager: Finished task 1.0 in stage 1.0 (TID 3) in 79 ma on localhost (2/2) 
INFO 
INFO 
INFO 











attempt 201505110938 0001 m 000001 3: Committed 


15/05/11 09:38:42 TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool 
15/05/11 09:38:42 DaGScheduler: Stage 1 (saveAsTextFile at SimpleApp.scala:17) finished in 0.516 = 
15/05/11 09:38:42 DAGScheduler: Job 0 finished: saveAsTextFile at SimpleApp.scala:17, took 1.118916 s 
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图 2-25 示例 程序 运行 日 志 


Starting task 0.0 in stage 1.0 (TID 2, localhost, PROCESS LOCAL, 1056 bytes) 


| 0001 m 000000 2* to file:/D:/LearnSpark/cot 


18/05/11 09:38:42 INFO TaskSetManager: Starting task 1.0 in stage 1.0 (IID 3, localhost, PROCESS LOCAL, 1056 bytes) 


FileOutputCommitter: Saved output of task 'attempt 201505110938 0001 m 000001 3' to file:/D:/LearnSpark/cov 





2.3 Spark Web UI 45 


2.3 Spark Web UI 


为 了 便于 开发 和 使 用 者 监控 和 调试 Spark 应 用 ,Spark 提供 了 Web UI 用 于 查看 
Spark 作业 在 系统 中 的 运行 情况 。Spark 提供 了 两 种 查看 作业 运行 状况 的 Web UL, 一 
种 是 实时 UL, 另 一 种 是 历史 UI。 通 过 实时 Web UI 可 以 查看 一 个 SparkContext 生命 周 
期 中 运行 的 Spark 作业 信息 ,如 果 某 个 SparkContext 生命 周期 结束 了 ( 例如 一 个 Spark 
Shell 被 关闭 ) , 则 相关 的 作业 信息 对 应 的 实时 UL 就 消失 了 。 与 此 相对 地 ,通过 历史 UI 
则 可 以 看 到 所 有 运行 结束 后 的 Spark 作业 信息 。 由 于 历史 UI 与 实时 UI 的 呈现 方式 基 
本 一 致 ,所 以 ,只 需要 通过 Spark 的 简单 配置 选项 打开 历史 信息 记录 和 不 同 的 访问 端口 
即 可 ,因此 ,在 本 节 中 我 们 只 对 实时 UL 中 展示 的 作业 信息 进行 介绍 。 


2.3.1 访问 实时 Web UI 


Spark 的 实时 Web UL, 依赖 于 SparkContext 对 象 实例 创建 后 启动 的 Web 服务 , 因 
此 ,我 们 首先 要 启动 一 个 Spark 程序 以 触发 创建 SparkContext 对 象 实例 。 例 如 ,我 们 可 
以 通过 启动 Spark Shell 命令 的 方式 创建 一 个 SparkContext 对 象 实例 。 下 面 我 们 在 命令 
行 窗口 输入 (这 里 假定 你 已 经 完成 了 2. 1 节 的 全 部 操作 和 配置 ) : 





> bin spark - shell 


Spark Shell 环境 启动 后 , 随 之 启动 了 一 个 Web 服务 ,查看 实时 作业 信息 的 Web 服 
务 默认 在 4040 端口 监听 ,因此 ,我 们 在 浏览 器 的 地 址 栏 输入 以 下 地 址 即 可 访问 实时 
Web UI 界面 : http:// localhost:4040。 

因为 我 们 的 演示 是 在 单机 环境 下 进行 ,因此 ,上 面 的 URL 中 服务 器 地 址 为 
localhost。 如 果 在 集群 环境 下 运行 ,更 换 为 Spark 作业 的 Driver 节点 的 IP 地 址 即 可 。 
当然 ,我 们 也 可 以 在 一 台 服 务 器 上 启动 多 个 Spark 程序 ,每 启动 一 个 ,就 会 开启 一 个 新 
的 Web 服务 显示 该 程序 的 实时 信息 ,访问 这 些 Web 服务 的 方式 只 需要 将 地 址 栏 输入 
的 端口 号 由 4041 依次 往 后 加 1 即 可 。 

在 仅 启 动 Spark Shell 环境 而 没有 运行 Scala 脚本 、 运 行 Spark 程序 的 情况 下 ,实时 
Web UI 中 是 没有 任何 作业 信息 的 ,其 显示 如 图 2-26 所 示 。 

从 图 中 顶部 菜单 ,我们 可 以 看 到 ,实时 Web UI 可 以 显示 Spark 作业 的 以 下 信息 。 

* Jobs; 显示 的 是 作业 相关 信息 ,已 经 完成 的 作业 有 哪些 ,正在 进行 的 作业 有 哪 

些 等 。 
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[ 2 Spee Sooo 
€ > C fi |D localhost4040/jobs/ o 








Spok ss | ME sues swage Enron em Spark sneli apoio ui 


Spark Jobs (7 


‘otal Duration: 1 9 mn 
Scheduling Mode: FIFO 


2-26 Spark Web UI 默认 页 面 


Stages: TE Spark 中 ,一 个 作业 会 被 划分 为 多 个 阶段 ( Stage ) 执行 ,Stages 页 面 显 
示 的 是 作业 各 阶段 的 信息 。 
Storage: 显示 的 是 RDD 存储 情况 ,包括 存储 的 方式 及 大 小 。 
Environment; 显示 Spark 运行 的 相关 环境 变量 及 各 种 参数 ,例如 JAVA_ 
HOME 等 。 

* Executors: 显示 Spark 作业 并 行 执行 时 每 个 执行 器 (Executor) 的 情况 。 

在 菜单 的 下 方 还 有 两 个 重要 信息 : 一 个 是 当前 SparkContext 存活 的 时 间 , 这 里 显 
示 的 是 Spark Shell 被 启动 了 1.9 分 钟 ; 另 一 个 是 目前 Spark 程序 的 调度 模式 。Spark 
的 调度 模式 在 后 面 的 章节 中 我 们 会 介绍 ,这 里 我 们 只 需要 知道 当前 作业 采用 的 是 先 人 
先 出 (FIFO ) 调 度 机 制 。 


2.3.2 从 实时 UI 查看 作业 信息 


为 了 在 实时 UI 中 显示 出 作业 信息 ,我 们 在 打开 的 Spark Shell 窗口 输入 以 下 语句 
执行: 

Scala? val file=sc.textFile("E:\\LearnSpark \\word.txt") 

scala> file.cache 


Scala? val counts = file.flatMap (line => line.split (" ")).map (word => 
(word, 1)).reduceByKey ( + _) 


按照 一 个 正常 的 程序 逻辑 ,在 输入 以 上 语句 后 ,程序 应 该 是 要 执行 了 。 但 此 时 你 
可 以 切换 到 实时 Web UI 页 面 ,会 发 现 看 不 到 任何 作业 运行 的 信息 ,这 就 是 Spark 程序 
的 惰性 (Lazy ) 执行 特性 。 只 有 当 我 们 再 输入 以 下 语句 时 ,这 个 Spark 作业 才 真正 开始 
执行 。 

Scala? counts.saveAsTextFile("E: N,earnSpark \\counts .txt") 

此 时 ,再 打开 实时 Web UI 页 面 ,我 们 就 能 看 到 以 上 语句 触发 执行 的 Spark 作业 
信息 。 

。 作业 信息 页 面 (Jobs) 

如 图 2-27 所 示 ,在 作业 信息 页 面 ,我 们 能 看 到 已 经 有 一 个 完成 的 作业 。 由 于 这 个 
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作业 计算 量 很 小 ,因此 ,在 提交 后 0. 8 秒 就 完成 了 。 该 作业 分 为 了 两 个 阶段 ( Stage ) TA 
行 , 均 成 功 完成 。 一 共 执 行 了 4 个 作业 ,并 且 也 都 成 功 完成 。 如 果 提 交 的 是 计算 量 较 
大 的 作业 ,在 Tasks 列 可 以 看 到 作业 执行 的 进度 。 


€ 3 © fi DB ocalhost4040/joby/ 


voz 
Eb c LLL 


Spark shell appicaton Ut 





Completed Jobs (1) 


Jovia ^ Oesenpuon ummea Duration stages: succeedearTorai ‘Tasks tror an stages): succeeaearTetal 
o saveAsTedFie al <console> 26 amsn 113701 oss m 


图 2-27 作业 信息 页 面 

。 作业 阶段 信息 ( Stages ) 

如 图 2-28 所 示 ,我 们 可 以 看 到 这 个 作业 被 切割 成 了 两 个 阶段 执行 ,并 且 均 已 执行 
完成 。 其 中 阶段 1(Stage Id 为 0) 执行 了 0.4 秒 ,成 功 执行 了 两 个 任务 (Tasks) , 读 人 
(Input) 了 27 个 字 节 数据 ,输出 了 509 个 字 节 的 Shuffle 数据 (Shuffle Write) 。 阶 段 2 
(Stage Id 为 1) 执行 了 0.3 秒 , 成 功 执行 了 两 个 任务 (Tasks) ,从 上 一 阶段 (阶段 1) 读 取 
了 509 个 字 节 的 Shuffle 数据 (Shuffle Read) 。 点 击 Stage 的 描述 ( Description) ,还 可 以 
查看 Stage 执行 的 详细 信息 ,在 这 里 我 们 暂时 不 进一步 深入 ,留待 后 续 介 绍 Spark 原理 
时 再 具体 展开 。 


『 e Spm aha spark stn x 
© è Ai D localhost so10/stages/ 


aos 
— 
SS SSS 


Spark Stages (for all jobs) 








图 2-28 作业 阶段 信息 页 面 
。 存储 信息 页 面 ( Storage) 
在 上 面 的 代码 中 ,为 了 触发 RDD 进行 存储 ,我 们 执行 了 一 个 语句 “file. cache”, 因 
此 ,可 以 在 存储 信息 页 面 看 到 该 RDD 存储 的 情况 ,如 图 2-29 所 示 。 这 个 RDD 的 名 称 
Fz E: \LearnSpark \word. txt, 即 我 们 读 和 的 文件 。 该 RDD 被 存储 在 内 存 ( Memory) rp, 
分 为 两 个 分 区 (Partitions) ,在 内 存 中 存储 了 184 个 字 节 ,在 Tachyon( Spark 使 用 的 一 种 
内 存 文件 系统 ) 和 磁盘 没有 存储 。 点 击 RDD 的 名 称 还 可 以 查看 RDD 存储 更 为 详细 的 
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信息 ,在 这 里 我 们 也 和 暂时 不 作 展开 。 








4 9 € 4 [D locaihost4040/storage 





er ELEC 1 — — 

Storage 

ROD Name Storage Level Cacnea Partwons Fraction Cached ‘ize in Memory | size in Tachyon Size on Disk 
eomsparwora ut Memory Deseratuea v Reperated 0% CITI 008 


图 2-29 ”存储 信息 页 面 
e 环境 变量 页 面 (Environment) 
Spark 作业 执行 中 的 各 种 环境 变量 .配置 参数 等 都 可 以 在 该 页 面 方便 地 查看 。 例 
如 ,可 以 查看 到 基本 的 运行 配置 (例如 Java Home Java Version) ,还 可 以 看 到 Spark 相 
关 的 端口 (例如 spark. driver. port) 等 重要 信息 ,如 图 2-30 所 示 。 


[A 








€ > © f D localhost4040/environment/ Sr 
Jobs Stages Storage | Emme er Sparkshellappicaionü B 
Environment 
Runtime Information. 
Name 
Joa Home 
Jova Version 
Sea verson 
‘Spark Propertios 
Name value 
spark appt ea 1431312960703 
par app name par ses 
spark arver nost young 
park orner port eee 
sparorecuor ig comer 
spank server un Map noe 16a 138 53165 
spacia 
spark master ea) 
spre rp eit Map Ine sea m n Star 
park schecuer moce FO 
pan tacnyonstorefoxgertame spark 476218 e000 4130 8900 3364528570 
System Propertios 
mame vave 
SPARK_SUBMIT m 
ete sun at mnsan Tota 
t arerin mc [oscars + asks 9 


图 2-30 ”环境 变量 信息 页 面 

e 执行 器 信息 页 面 (Executors ) 

Spark 作业 可 以 由 多 个 执行 器 ( Executor ) 并 行 执行 ,由 于 我 们 的 试验 是 在 单机 环境 
下 运行 的 ,因此 ,我 们 看 到 的 是 只 有 一 个 Driver。 该 Driver 在 本 机 (localhost) 的 53 178 
端口 进行 监听 ,生成 了 两 个 RDD 块 ,没有 使 用 内 存 和 磁盘 ,已 经 成 功 完成 了 4 个 任务 ， 
执行 了 1.1 秒 , 读 人 了 27 个 字 节 数 据 ,输出 了 509 个 字 节 的 Shuffle 数据 ,如 图 2-31 
所 示 。 

至 此 ,我 们 基本 了 解 了 使 用 Web 界面 查看 Spark 作业 运行 情况 的 方法 。 初 步 感受 
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EE 
€ 9 © Mh [Dlocathost404ojexecutors/ voz 








a FT 


Executors (1) 


i 
i 
i 

iit 


图 2-31 执行 器 信息 页 面 
到 了 Spark 的 几 个 特性 : (DSpark 并 行 运行 时 会 分 成 Driver 和 Executor; Q)Spark 在 执 
行 作业 的 时 候 会 把 一 个 作业 根据 某 些 策略 划分 成 不 同 的 阶段 (Stage ) ; @Spark 中 有 些 
算 子 会 提交 作业 处 理 数据 ,有 些 算 子 并 不 提交 作业 来 处 理 数 据 ; @Spark 可 以 把 一 些 
需要 处 理 的 数据 缓存 在 内 存 中 ,或 者 是 存储 在 以 Tachyon 为 代表 的 分 布 式 内 存 文件 系 
统 。 在 后 面 的 章节 中 ,我 们 会 结合 这 些 页 面 的 信息 继续 深入 探讨 Spark 的 原理 和 运行 
机 制 ,以 及 使 用 这 些 页 面 中 的 信息 帮助 我 们 优化 和 改进 Spark 程序 。 
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Spark 原理 


在 前 面 的 章节 中 ,我 们 已 经 体验 到 了 与 Spark 相 比 Hadoop 的 性 能 优越 性 和 使 用 便 
捷 性 。 当 然 ,Spark 的 这 些 优势 并 不 是 凭空 产生 的 。 作 为 大 数据 处 理 技术 的 后 来 者 ， 
Spark 的 设计 目的 就 是 在 已 有 技术 的 基础 上 继续 降低 编写 数据 处 理 程序 的 难度 和 提高 
数据 处 理 的 效率 。 因 此 ,Spark 吸收 和 借鉴 了 包括 MapReduce 计算 模式 .函数 式 编程 思 
48 .DAGU 执行 模式 等 多 种 已 有 技术 的 优点 ,并 巧妙 地 融合 于 基于 弹性 分 布 式 数据 集 
实现 的 计算 框架 中 ,最 后 形成 了 一 个 简洁 高 效 的 创新 分 布 式 处 理 框架 。 为 了 更 好 地 掌 
握 和 使 用 这 一 框架 ,下 面 我 们 就 以 大 家 最 熟悉 的 WordCount 程序 为 例 , 初 步 深入 Spark 
的 原理 和 运行 机 制 ,为 后 面 的 Spark 算法 设计 奠定 基础 。 














3.1 Spark 工作 原理 


在 开始 了 解 Spark 工作 原理 之 前 ,我 们 先 介 绍 Spark 中 两 个 最 重要 的 基本 概念 : 弹 
性 分 布 式 数据 集 ( Resilient Distributed Datasets,RDD) 2 和 算 子 ( Operation) 。 

* RDD 

Spark 使 用 弹性 分 布 式 数据 集 RDD( Resilient Distributed Datasets) 实现 数据 存储 。 
RDD 可 以 理解 为 将 一 个 大 的 数据 集合 以 分 布 式 的 形式 保存 在 集群 服务 器 的 内 存 中 。 
从 物理 上 来 讲 ,RDD 将 一 个 大 的 数据 集 分 块 为 一 系列 数组 ,这 些 数组 以 分 布 式 的 方式 
存储 在 集群 中 的 各 个 节点 上 ,每 个 数据 块 有 一 个 标识 , 称 为 BlockID。 这 样 就 可 以 通过 
记录 每 个 分 块 的 元 数据 ( Meta Data) 对 数据 块 进行 管理 。 每 个 数据 块 可 以 存储 在 节点 
的 内 存 中 ,或 者 被 持久 化 在 硬盘 上 。 为 了 便于 组 织 和 处 理 ,这 些 数据 块 在 逻辑 上 进行 
划分 后 ,形成 多 个 分 区 ( Partition ) 。 用 户 可 以 通过 对 RDD 使 用 一 系列 变换 算 子 的 处 
理 ,并 利用 行动 算 子 触发 实际 的 操作 。Spark 根据 相应 的 变换 计算 流程 ,对 输入 RDD 
的 分 区 数据 计算 得 到 新 的 结果 RDD。 这 样 一 来 ,用 户 就 能 够 以 类 似 编写 单机 程序 的 方 
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法 来 进行 分 布 式 计算 。 

。 ATF 

算 子 是 Spark 中 定义 的 函数 ,用 于 对 RDD 中 的 数据 进行 操作 和 转换 。Spark 中 的 
算 子 可 以 分 为 4 类 。 

(1) 创建 算 子 ( Creation) ,用 于 将 内 存 中 的 集合 或 外 部 文件 创建 为 RDD 对 象 。 

(2) 变换 算 子 (Transformation ) ,用 于 将 一 个 RDD 转换 为 另 一 个 RDD。 

(3) 缓存 算 子 (Cache) ,用 于 将 RDD 缓存 在 磁盘 或 内 存 中 ,以 便 后 续 计 算 重复 
使 用 。 

(4) 行动 算 子 ( Action) ,会 触发 Spark 作业 执行 ,并 将 计算 结果 RDD 保存 为 Scala 
集合 或 标量 ,或 者 保存 到 外 部 文件 或 数据 库 中 。 

第 一 次 接触 Spark 的 读者 ,可 能 对 以 上 两 个 概念 会 感觉 比较 用 涩 。 我 们 仍 以 大 家 
已 经 熟悉 的 ,非常 简单 的 WordCount 程序 为 例 ,结合 WordCount 程序 的 每 一 步 计 算 来 理 
解 以 上 两 个 重要 概念 和 Spark 的 工作 原理 。 下 面 是 用 Spark 实现 WordCount 程序 的 
代码 。 








基于 Spark 的 WordCount 程序 


1 import org.apache.spark.SparkContext 

2 import org.apache.spark.SparkContext. 

3 import org.apache.spark.SparkConf 

4: object SimpleApp ( 

Së def main (args: Array [String]) { 

6 if (args.length !=2) { 

7 println("error : too few arguments") 

8 SYS .exit (1) 

9: ) 

10: val inputFile - args (0) // 读 取 输 入 文件 路 径 参 数 

1174 val outputFile -args (1) // 读 取 输 出 文件 路 径 参 数 

12: val conf - new SparkConf ().setAppName ("WordCount").setMaster 
("local") // 生成 配置 实例 

13: val sc =new SparkContext (conf) // ^k Ji SparkContext 实例 

14: val file =sc.textFile(inputFile, 3) 人 读 取 输 入 文件 内 容 生成 RDD 
36 val counts -file.flatMap (line => line.split (" ")).map (word => 
(word, 1)).reduceByKey (_ + _) /统计 

16: counts .saveAsTextFile (outputFile) // 保存 统 计 结 果 

"p: b 


18: } 
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我 们 可 以 将 整个 程序 分 成 两 个 部 分 。 

(1) 程序 代码 的 前 12 行 都 是 进行 Spark 程序 的 前 期 准备 工作 。 代 码 第 1 ~4 行 引 
入 必要 的 包 。 第 5 ~9 行 验证 程序 运行 必要 的 两 个 参数 是 否 具备 ,第 1 个 参数 是 输入 
文件 的 路 径 , 第 2 个 参数 是 计数 结果 文件 的 输出 路 径 。 第 10 行 是 从 第 1 个 参数 中 取 
出 输入 文件 路 径 。 第 11 行 是 从 第 2 个 参数 中 取出 输出 文件 路 径 。 第 12 行 是 创建 
Spark 程序 运行 需要 的 配置 实例 ,其 中 设置 应 用 的 名 称 为 *“WordCount” ,并 采用 本 地 方 
式 运 行 。 

(2) 从 代码 第 13 行 到 程序 结束 是 执行 单词 计数 逻辑 的 代码 。 第 13 行 是 创建 运 
fT Spark 程序 必需 的 SparkContext 实例 。SparkContext 是 整个 Spark 程序 的 人口 ,负责 
向 集群 申请 程序 运行 的 环境 和 资源 以 及 进行 必要 的 初始 化 工作 。 一 旦 资源 初始 化 完 
成 集群 上 资源 申请 成 功 ,程序 就 可 以 进行 对 数据 的 计算 操作 。 第 14 ~ 16 行 是 执行 
WordCount 算法 的 主要 代码 。 相 比 MapReduce 版 的 WordCount 程序 (具体 可 参见 
(Hadoop 大 数据 处 理 》 一 书 ) ,你 可 以 看 到 使 用 Spark 实现 WordCount 程序 非常 简单 。 
实现 数据 输入 、WordCount 计算 数据 输出 3 个 功能 只 需要 3 行 代码 。 其 中 ,第 15 行 代 
码 是 WordCount 计算 的 主体 ,使 用 了 Scala 的 函数 式 编程 方法 并 调用 Spark 的 多 个 算 
f. Scala 的 函数 式 编程 方法 最 大 的 特点 就 是 每 次 操作 都 是 一 次 方法 调用 过 程 。 首 先 
调用 flatMap 算 子 将 输入 文件 的 每 一 行 数据 以 空格 分 割 为 独立 的 单词 ,然后 调用 map 
算 子 给 每 一 个 独立 单词 计数 为 1, 最 后 调用 reduceByKey 算 子 将 内 容 相同 的 单词 累加 
求 和 。 

为 了 更 清晰 地 了 解 Spark 的 基本 原理 ,我 们 用 图 3-1 展示 了 上 述 第 13 ~ 16 行 代码 
实现 的 WordCount 逻辑 在 Spark 上 的 运行 过 程 。 

(1) 图 中 第 1 步 执行 的 是 代码 第 14 行 。textFile 是 一 个 创建 算 子 (我 们 将 在 下 一 
章 详细 介绍 各 类 算 子 ) ,其 功能 是 从 inputFile 指定 的 HDFS 文件 中 逐 行 读 取 文本 数据 ， 
并 转化 为 Spark 中 的 HadoopRDD 对 象 实例 。“ textFile" 算 子 中 的 参数 “3” 是 指 生成 的 
HadoopRDD 数据 实例 ,以 3 个 分 区 ( Partition) 的 方式 进行 存储 ,Spark 将 RDD 的 分 区 以 
分 布 式 的 形式 存储 在 集群 中 不 同 的 物理 服务 器 中 。 在 图 中 第 一 步 后 ,我 们 可 以 看 到 
HadoopRDD 的 数据 被 分 成 Partitionl ,2.,3 存储 ,每 个 分 区 的 每 条 内 容 对 应 输入 文件 的 
一 行文 本 信息 ,在 本 例 中 是 包含 以 空白 符 分 隔 的 若干 表示 水 果 名 称 的 单词 。 

(2) Spark 中 的 分 区 只 是 一 个 逻辑 上 的 概念 ,在 Spark 集群 上 数据 的 真正 存储 单元 
被 称 为 数据 块 ( Block ) ,由 数据 块 管理 器 ( BlockManager) 维护 和 管理 。 逻 辑 概念 上 的 分 
区 和 物理 上 的 数据 块 一 一 对 应 , 即 一 个 分 区 对 应 着 一 个 数据 块 。 每 个 Block 都 有 一 
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(2) BlockManager 
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© ShuffledRDD © MappedRDD 
行动 算 子 变换 算 子 
saveAsTextFile() reduceByKey((a,b)=>atb) 
图 3-1 WordCount 运行 过 程 


唯一 的 BlockID , 其 构成 方式 是 " rdd_" + rddID +"_" + partitionID ,其 中 rddID. 是 该 
Block 所 属 的 RDD 的 标识 ,partitionID 是 对 应 的 Partition 的 标识 。BlockManager 依据 
BlockID 记录 每 个 数据 块 的 存储 节点 位 置 等 元 数据 ,以 对 这 些 Block 进行 管理 。 

(3) 图 中 第 3 步 对 应 代码 第 15 行 的 第 一 部 分 fie. flatMap( ) 。flatMap 是 一 个 变换 
算 子 ,其 作用 是 将 原始 RDD 中 的 每 个 元 素 用 一 个 指定 函数 进行 一 对 多 的 变换 ,然后 将 
变换 后 的 结果 汇聚 生成 新 的 RDD。 在 我 们 的 这 个 例子 中 ,指定 函数 是 line = > line. 
split("" ) ,其 功能 是 将 原始 RDD 中 的 每 一 行文 本 , 按 空格 为 分 隔 符 ,分 隔 成 单词 。 因 
此 ,第 3 步 的 作用 就 是 将 从 文件 中 读 和 人 的 数据 , 按 空格 分 隔 拆 分 为 一 个 一 个 的 单词 , 生 
成 一 个 新 的 RDD ,我 们 称 为 FlatMappedRDD。 由 于 flatMap 算 子 是 对 原始 RDD 的 每 个 
Partition 进行 一 对 一 的 变换 ,因此 ,生成 的 新 RDD 仍然 为 3 个 Parition。 

(4) 图 中 第 4 步 对 应 代码 第 15 行 的 第 二 部 分 map(word = > (word, 1) ) map 也 
是 一 个 变换 算 子 ,其 功能 是 将 一 个 指定 函数 作用 于 原始 RDD 的 每 个 元 素 ,形成 一 个 新 
的 RDD。 在 我 们 的 这 个 例子 中 ,指定 函数 是 word = > (word, 1) ,其 作用 是 对 每 个 单 
词 进行 变换 ,生成 一 个 单词 为 Key ,频数 1 为 Value 的 键 值 对 ( Key/ Value Pair)。 所 有 
变换 生成 的 键 值 对 构成 一 个 新 的 RDD ,我 们 称 之 为 MappedRDD。 同 样 , Map 算 子 也 是 
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对 原始 RDD 的 每 个 Partition 进行 一 对 一 的 变换 ,因此 ,生成 的 MappedRDD 仍然 为 3 个 
Parition 。 

(5) 图 中 第 5 步 对 应 代码 第 15 行 的 第 三 部 分 reduceByKey(_ + _) 。reduceByKey 
仍然 是 一 个 变换 算 子 ,但 跟前 面 flatMap 和 map 算 子 不 同 ,reduceByKey 算 子 的 作用 对 
象 是 Key/ Value 型 的 RDD。reduceByKey 算 子 将 Key/ Value 型 RDD 中 Key 值 相同 的 
Value 值 按照 参数 指定 函数 进行 归并 ,然后 生成 新 的 RDD。 在 我 们 的 这 个 例子 中 ,指定 
函数 是 ”+ _" ,这 是 Scala 语法 中 的 一 个 特殊 写法 ,人 逻辑 是 将 所 有 Value 值 逐 个 相 加 ， 
得 到 对 应 Key 值 ( 也 就 是 单词 ) 的 出 现 次 数 。reduceByKey 算 子 对 全 部 分 区 进行 归并 计 
算 , 所 以 ,生成 的 新 RDD 就 不 是 原来 的 3 个 了 ,而 是 Spark 集群 的 默认 Partition 数 。 我 
们 这 里 假定 默认 Partition 数 的 参数 为 2, 因 此 ,生成 的 ShuffledRDD 中 只 有 2 个 分 区 。 

(6) 经 过 第 3.4.5 步 ,我 们 已 经 统计 出 了 输入 数据 中 每 个 单词 的 出 现 次 数 ,并 存 
放 在 ShuffledRDD 中 。 为 了 输出 结果 ,在 代码 的 第 16 行 ,我 们 使 用 行动 算 子 
saveAsTextFile 将 ShuffledRDD 中 的 数据 保存 到 HDFS 文件 中 。 至 此 ,统计 单词 频数 的 
WordCount 程序 完成 。 

通过 上 面 的 示例 ,我们 基本 了 解 了 Spark 通过 RDD 和 算 子 两 个 基本 原理 实现 分 布 
式 并 行 计算 的 原理 。 在 这 个 过 程 中 ,我 们 需要 记 住 Spark 中 的 两 个 重要 理念 。 

(1) 在 Spark 中 ,只 支持 对 RDD 进行 粗 粒 度 的 操作 , 即 只 能 对 RDD 进行 整体 性 的 
操作 ,而 不 提供 对 RDD 中 某 个 元 素 进行 操作 的 函数 接口 。 例 如 ,在 WordCount 程序 
中 ,我 们 都 是 对 由 句子 单词 构成 的 整体 RDD 数据 集 进行 变换 ,而 没有 哪 一 行 代 码 对 
某 一 个 句子 或 单词 进行 操作 。 

(2) fg Spark 中 ,RDD 是 只 读 的 。 上 面 的 每 次 变换 都 是 由 一 个 RDD 生成 新 的 
RDD 的 过 程 。 这 一 系列 RDD 的 变换 操作 过 程 构成 了 一 个 操作 序列 ,以 达到 最 终 的 计 
算 目的 。 

从 上 面 的 代码 和 原理 讲解 中 我 们 可 以 看 到 ,使 用 Spark 实现 WordCount 功能 是 如 
此 简单 。 显 然 ,Spark 计算 框架 在 后 台 默 默 为 我 们 完成 了 大 量 的 支持 工作 才能 使 我 们 
编写 大 数据 处 理 程序 如 此 简单 。 那 么 ,Spark 究竟 为 我 们 做 了 什么 呢 ? 在 下 一 节 我 们 
仍然 以 Spark 版 本 的 WordCount 程序 为 例 , 来 看 一 看 Spark 程序 的 执行 过 程 。 





3.2 Spark 架构 及 运行 机 制 


3.2.1 Spark 系统 架构 与 节点 角色 


与 Hadoop 技术 族 中 的 MapReduce 和 HDFS 类 似 ,Spark 也 采用 了 相对 成 熟 的 主 从 
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( Master/ Slave) 架构 构建 计算 集群 ,其 架构 如 图 3-2 所 示 。 其 中 Client 为 提交 Spark fe 
序 的 节点 。 其 余 为 Spark 分 布 式 集群 中 的 物理 节点 ,这 些 节 点 可 以 分 为 两 类 ,集群 管理 
( ClusterMaster ) 节点 和 从 ( Slave) 节 点。 


C ClusterMaster | 


| | | | 
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图 3-2 Spark 系统 架构 

© ClusterMaster 节点 : ClusterMaster 是 整个 Spark 集群 的 核心 ,在 集群 中 所 处 的 地 
位 与 HDFS 集群 中 NameNode 节点 的 地 位 类 似 。ClusterMaster 节点 并 不 执行 实 
际 的 计算 任务 ,而 是 负责 管理 整个 集群 的 计算 资源 ,这 里 所 说 的 计算 资源 是 指 
BR ClusterMaster 节点 外 其 他 物理 主机 的 内 存 .CPU 处 理 器 等 物理 资源 。 这 些 计 
算 资源 都 由 ClusterMaster 节点 进行 统一 管理 ,并 将 资源 合理 地 分 配给 用 户 提交 
的 各 个 应 用 程序 。 所 有 计算 节点 都 要 向 ClusterMaster 节点 进行 注册 ,将 自身 的 
计算 资源 交 给 ClusterMaster 节点 进行 统一 调度 。ClusterMaster 节点 随时 监控 
了 解 这 些 注册 的 节点 的 运行 状况 ,以 便 为 应 用 程序 提供 合理 的 资源 分 配 。 需 
要 注意 的 是 ,ClusterMaster 节点 是 一 个 逻辑 上 的 概念 , 当 Spark 集群 采用 不 同 模 
式 运 行 时 ,ClusterMaster 节点 对 应 的 是 这 些 模式 中 的 相应 管理 节点 。 例 如 ,以 
简单 的 Standalone 模式 运行 Spark 时 ,ClusterMaster 节点 就 是 运行 Master 服务 
的 节点 。 以 YARN 模式 运行 Spark 时 ,对 应 的 ClusterMaster 节点 为 YARN 中 的 
ResourceManager 节点 。 而 以 Mesos 模式 运行 Spark 时 ,对 应 的 ClusterMaster 节 
点 则 为 Mesos 中 的 Master 节点 。 

Slave 节点 : Slave 是 Spark 集群 中 执行 作业 逻辑 的 节点 。 但 与 HDFS 集群 中 作 
为 Slave 节点 的 DataNode 节点 只 完成 单一 功能 不 同 ,Spark 中 的 Slave 节点 又 根 
据 功能 不 同 分 为 两 类 : 任务 调度 节点 (Driver) 和 任务 执行 节点 (Worker) 。 区 
分 这 两 种 节点 的 根本 方法 就 是 看 Slave 节点 上 运行 着 哪 种 功能 的 进程 。 

V Driver 节点 : 如 果 节 点 上 运行 了 Spark 程序 main 函数 所 在 的 进程 ,那么 该 节 

点 就 作为 该 应 用 程序 的 Driver 节点 。 在 Spark 集群 中 ,Driver 进程 可 以 运行 
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在 提交 Spark 程序 的 Client 节点 上 ,也 可 以 是 某 个 Worker 节点 上 。 例 如 , 当 
我 们 用 前 面 示例 中 运行 Spark Shell 时 ,实际 上 启动 了 一 个 Spark 程序 , 因 
此 ,我 们 的 电脑 就 是 Driver 节点 。Driver 节点 作为 整个 应 用 程序 逻辑 的 起 

点 ,负责 创建 SparkContext 定义 一 个 或 者 多 个 RDD, 同 时 Driver 进程 还 可 以 
看 做 是 加 个 应 用 程序 的 大 脑 。Driver 主要 负责 两 方面 的 工作 : 中 负责 将 一 
个 应 用 程序 分 割 为 物理 上 可 执行 的 任务 ( Task ) ,在 Spark 中 ,Task 是 物理 上 
可 执行 的 最 小 单元 ,一 个 应 用 程序 可 以 启动 成 百 上 千 的 独立 Task; OXF 
应 用 程序 产生 的 Task ,Driver 进程 将 Task 任务 分 配 到 最 适合 的 Worker 节点 
上 运行 ,并 协调 这 些 Task 在 Worker 上 完成 运行 。 这 些 过 程 我 们 会 在 后 面 
的 内 容 中 详细 介绍 。 

V Worker 节点 : 运行 Executor 进程 的 节点 为 Worker 节点 ， Spark 为 每 一 
程序 在 Worker 节点 上 创建 一 个 Executor 进程 ,Executor 进程 是 实际 ee 
务 的 执行 者 。Executor 进程 负责 两 方面 的 工作 : 负责 执行 组 成 应 用 程序 
的 独立 Task 计算 任务 ,并 将 执行 的 结果 反馈 给 Driver 节点 ; Q)Executor jt 
程 为 RDD PE: 





用 不 同 模式 运行 在 一 个 或 多 个 物理 节点 中 。 因 此 ,Spark 程序 可 VeRO 
我 们 在 前 面 的 示例 中 以 Spark Shell 形式 运行 的 Scala 脚本 ) ,也 可 以 在 集群 中 分 布 式 运 
行 。 而 且 , 在 集群 中 运行 时 ,也 可 以 采用 多 种 资源 调度 框架 。 这 些 差异 ,就 构成 了 
Spark 程序 可 以 运行 的 多 种 模式 ,具体 使 用 哪 种 模式 可 以 通过 设置 和 程序 传递 到 
SparkContext 的 MASTER 环境 变量 值 确定 。 这 些 模式 包括 : 

(1) 本 地 (local) 模 式 : 本 地 模式 下 ,Spark 作业 是 在 单机 使 用 非 并 行 模式 执行 。 

(2) 单机 (Standalone ) 模式 : Standalone 模式 运行 的 Spark 集群 对 不 同 的 应 用 程序 
采用 先进 先 出 (FIFO ) 的 顺序 进行 调度 。 默 认 情况 下 ,每 个 应 用 程序 会 独占 所 有 可 用 节 
点 的 资源 。 

(3) 伪 分 布 式 (local-cluster ) 模 式 : 伪 分 布 式 模式 在 单机 环境 下 模拟 了 Standalone 
模式 。 在 伪 分 布 式 模式 下 资源 的 调度 流程 与 Standalone 模式 完全 相同 ,只 是 资源 调度 
的 不 是 实际 的 物理 节点 ,而 是 在 单机 上 运行 的 伪 分 布 Spark 集群 。 

(4) YARN 模式 : Spark 集群 运行 在 YARN 资源 管理 框架 上 。 在 YARN 模式 下 ,可 
以 为 特定 的 应 用 程序 分 配 一 定数 量 的 Executor, 同 时 还 可 以 对 每 个 Executor 使 用 的 内 
存 大 小 和 占用 的 CPU 内 核 数 据 进行 设 定 。 
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(5) Mesos 模式 : Spark 集群 运行 在 Mesos 资源 管理 框架 上 。 在 Mesos 模式 下 , 既 
可 以 配置 Spark. 集群 使 用 静态 资源 的 分 配 策略 ,又 可 以 配置 集群 动态 共享 CPU 内 核 的 
分 配 策略 。 在 动态 共享 CPU 内 核 分 配 策略 下 ,每 个 独立 的 应 用 程序 还 会 分 配 固定 的 内 
存 资源 ,但 当 该 应 用 程序 所 占用 的 某 个 机 器 的 CPU 内 核 处 于 空闲 时 ,其 他 应 用 程序 可 
以 使 用 该 空闲 的 CPU 内 核资 源 。 





3.2.2 Spark 作业 执行 过 程 


在 了 解 Spark 集群 中 各 个 节点 功能 后 , 接 下 来 让 我 们 来 了 解 下 一 个 Spark 程序 提 
交 到 Spark 集群 后 ,这 些 节 点 是 如 何 协 调 工作 完成 Spark. 程序 执行 的 。Spark 程序 从 提 
交 到 集群 到 执行 的 过 程 如 图 3-3 所 示 。 








ClusterMaster | 

















Client Driver Worker Worker 
Be SparkContext Executor © Executor © 
val sc=new SparkContext RDD DAG | DAG 
val rdd-sc.textFile(*...") 

















Scheduler ro 
7 Task |---| Task Task |…| Task 
rdd.map().filter()... SparkEnv | Task [Task] Ln [Task | [ras] 


Scheduler. 


t F1 i j 
© © 


图 3-3 Spark 作业 执行 过 程 



































(1) 首先 ,用 户 会 根据 自己 实际 的 需求 编写 一 个 Spark 程序 ,就 像 我 们 之 前 编写 的 
用 于 统计 文件 中 单词 个 数 的 WordCount 程序 一 样 ,在 应 用 程序 中 包含 了 一 个 用 户 定义 
的 主 函数 , 在 主 函 数 内 部 实现 RDD 创建 .RDD 转换 .RDD 存储 等 操作 ,以 完成 用 户 的 
实际 需求 。 之 后 用 户 会 将 完整 的 Spark 程序 提交 到 集群 ,申请 Spark 集群 资源 并 行 执 
行 该 程序 。 集 群 收 到 用 户 提交 的 Spark 程序 后 ,对 应 的 Driver 进程 将 被 启动 ,负责 响应 
执行 用 户 定义 的 主 函数 。Driver 进程 的 启动 可 以 有 两 种 方式 : D Driver 进程 在 客户 端 
启动 ; QMaster 节点 指定 一 个 Worker 节点 启动 Driver 进程 ,来 充当 Driver 节点 的 
角色 。 

(2) Driver 进程 响应 执行 用 户 定义 的 主 函 数 后 ,会 发 现 主 函 数 内 部 包含 了 RDD 创 
建 .RDD 转化 .RDD 存储 等 操作 ,而 这 些 操作 都 需要 整个 集群 并 行 完成 ,于 是 Driver 进 
程 就 会 与 Master 节点 进行 通信 ,通过 Master 节点 ( 它 管理 着 集群 上 可 以 用 于 并 行 执行 
任务 的 全 部 资源 ) 申请 执行 程序 所 需 的 资源 。 
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(3) 在 Spark 集群 中 的 所 有 Worker 节点 都 会 向 Master 节点 注册 自己 的 计算 资源 ， 
以 便 Master 合理 调配 计算 资源 供应 用 程序 使 用 ,并 且 Master 节点 会 通过 心跳 检测 来 检 
查 已 注册 的 Worker 节点 是 否 存活 。 在 收 到 Driver 进程 的 资源 请 求 后 ,Master 节点 会 命 
令 已 注册 的 Worker 节点 启动 Executor 进程 。 

(4) 如 果 Worker 节点 是 正常 存活 的 ,并 且 该 Worker 节点 上 Executor 进程 启动 成 
功 ,那么 ,Master 节点 就 会 将 这 些 启动 的 资源 通知 到 Driver 进程 ,使 Driver 进程 使 用 集 
群 中 的 那些 资源 来 并 行 完成 该 Spark 程序 。 

(5) Driver 节点 根据 RDD 在 程序 中 的 转换 和 执行 情况 对 程序 进行 分 割 ,分割 过 程 
会 遵循 Spark 的 一 些 内 部 机 制 ,具体 的 分 割 规则 我 们 会 在 后 面 详细 介绍 。Driver 节点 
将 分 割 后 的 任务 发 送 给 已 经 申请 的 多 个 Executor 资源 ,每 个 Executor 进程 负责 独立 完 
成 分 给 它 的 那 部 分 计算 任务 ,并 将 执行 的 结果 反馈 给 Driver 节点 。Driver 节点 负责 了 
解 每 一 个 Executor 进程 的 完成 情况 ,以 统一 掌控 整个 Spark 程序 的 完成 情况 。 

(6) Worker 节点 上 运行 的 Executor 进程 是 作业 的 真正 执行 者 ,在 每 个 Worker 节 
点 上 可 以 启动 多 个 Executor, 每 个 Executor 单独 运行 在 一 个 JVM 进程 中 ,每 个 计算 任 
务 则 是 运行 在 Executor 中 的 一 个 线程 。 最 后 , Executor 负责 将 计算 结果 保存 到 磁 
盘 中 。 

(7) Driver 通知 Client 应 用 程序 执行 完成 。 

在 上 面 的 过 程 中 ,最 重要 的 是 3 个 步骤 ,如 图 34 所 示 。 
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Task | 
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Executor 中 执行 TaskSets 
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图 34 Spark 作业 执行 的 3 个 关键 步 又 
(1) 第 一 个 步骤 是 生成 RDD 的 过 程 。Driver 节点 根据 Spark 程序 中 的 代码 逻辑 
创建 出 RDD, RDD 被 创建 之 后 ,就 可 以 进行 一 系列 的 算 子 操作 了 。Spark 本 身 对 RDD 
的 操作 模式 是 惰性 计算 。 在 惰性 计算 机 制 中 ,尽管 每 一 次 算 子 操作 会 将 RDD 转换 为 
一 个 新 的 RDD, 并 且 逻 辑 上 会 顺序 的 执行 这 一 系列 运算 ,但 这 些 RDD 的 操作 并 不 是 
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立即 执行 的 ,而 是 会 等 到 出 现行 动 算 子 ( Action Operation) 时 才 触 发 整个 RDD 操作 序 
列 , 将 之 前 的 所 有 算 子 操作 形成 一 个 有 向 无 环 图 ( Directed Acyclic Graph , DAG) ,每 个 
有 向 无 环 图 再 触发 Spark 执行 一 个 作业 ( Job)。 例 如 ,在 我 们 前 面 的 WordCount 示例 程 
序 中 ,只 有 到 程序 最 后 一 行 执行 saveAsTextFile 行动 算 子 时 ,Spark 才 对 RDD 进行 真正 
的 处 理 ,将 之 前 的 flatMap , map .reduceByKey 和 saveAsTextFile 这 些 算 子 操作 连 成 一 个 
有 向 无 环 图 ,并 向 Spark 提交 该 作业 。 采 用 惰性 计算 的 优势 在 于 ,相关 的 操作 序列 可 以 
进行 连续 计算 ,而 不 用 为 存储 的 中 间 结 果 离 散 地 独立 分 配 内 存 存 储 空间 。 这 样 可 以 节 
省 存储 空间 ,同时 ,也 为 之 后 对 RDD 变换 操作 的 优化 提供 了 条 件 。 

(2) 第 二 个 重要 过 程 是 生成 Stages Driver 节点 中 的 DAGScheduler 实例 会 对 有 向 
无 环 图 中 节点 间 的 依赖 关系 进行 遍历 ,将 所 有 操作 切 分 为 多 个 调度 阶段 (Stage) 。 

(3) 第 三 个 重要 过 程 是 生成 Task。 每 个 Stage 还 需要 转换 为 任务 (Task ) 在 集群 中 
的 Worker 节点 执行 ,因此 ,还 要 由 Driver 节点 中 的 TaskScheduler 实例 将 Stage 转换 为 
Task ,并 提交 到 Worker 节点 的 Executor 进程 中 执行 。 

在 下 面 的 小 节 中 ,我 们 分 别 对 以 上 Spark 程序 执行 的 具体 步骤 进行 详细 说 明 。 


3.2.3 应 用 初始 化 


将 每 一 个 应 用 程序 提交 到 Spark 环境 中 运行 时 ,都 需要 先 完成 一 个 应 用 初始 化 过 
程 ,其 主要 工作 是 进行 配置 加 载 和 作业 初始 化 ,最 终 创 建 出 SparkContext 实例 ,以 支持 
程序 的 链接 集群 ,创建 RDD 变化 RDD 等 后 续 工作 。 触 发 Spark 应 用 初始 化 有 两 种 
情况 。 

(1) 使 用 Spark-shell 执行 Spark 程序 ,在 Spark-shell 交互 式 环境 启动 时 ,就 会 自动 
为 用 户 完成 Spark 的 配置 工作 ,并 自动 创建 SparkContext 来 连接 Spark 集群 ,在 我 们 看 
到 Spark-shell 的 命令 行 输入 窗口 , 即 已 完成 应 用 初始 化 过 程 。 此 时 ,我 们 可 以 “sec” 对 
象 执行 Spark 操作 ,这 里 的 “sec” 对象 就 是 SparkContext 的 首 字 母 缩写 。 

(2) 使 用 spark-submit 提交 Spark 程序 的 方式 。 我 们 可 以 通过 Spark 提供 的 
spark-submit 脚本 将 应 用 程序 提交 给 Spark 集群 处 理 。 用 户 可 以 首先 将 编写 好 的 应 
用 程序 进行 打包 生成 Jar 文件 ,然后 可 以 通过 配置 好 的 spark-submit 脚本 将 应 用 程序 
提交 给 Spark 集群 处 理 。 在 spark-submit 脚本 中 ,用户 可 以 根据 自己 的 需要 和 集群 的 
实际 情况 配置 多 个 参数 。 下 面 就 是 运行 在 YARN 集群 上 的 一 个 spark-submit 脚本 的 
示例 。 
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spark - submit 脚本 示例 


./ bin/ spark - submit - - master yarn - cluster - - class wordcount - - 
deploy -mode client \ 

- -name wordcount - -executor -memory lg - -executor -cores 1 \ 

"E # 其 他 参数 

/home/wordcount .jar \ # 程 序 jar 包 地 址 

/user/Input/Readme.txt \# 程 序 参 数 

/user/Output V # 程 序 参 数 


上 面 脚本 中 的 主要 参数 如 下 。 

V master; 指明 集群 中 的 Master 节点 ,之 前 我 们 已 经 介绍 过 ,Spark 集群 可 以 运行 
在 多 种 模式 下 ,因此 ,在 这 里 需要 根据 不 同 的 模式 设置 不 同 的 Master 节点 。 

V class: 用 户 的 应 用 程序 大 多 是 使 用 Scala 或 Java 语言 编写 的 ,在 一 个 应 用 程序 
的 Jar 包 中 ,可 能 就 会 包含 多 个 类 文件 ,class 指明 了 应 用 程序 的 入 口 类 。 

V deploy-mode; 指明 Driver 节点 的 运行 地 点 , 既 可 以 选择 在 用 户 的 客户 端 电脑 运 
行 Driver 节点 ,也 可 以 将 Driver 节点 运行 在 集群 中 的 一 个 节点 上 。 

V name; 指定 应 用 程序 的 名 称 , 该 名 称 会 出 现在 Spark 的 Web UI 中 ,方便 用 户 找 
到 自己 定义 的 应 用 程序 。 

V executor-memory ; 指明 需要 配置 Executor 的 内 存 大 小 ,Spark 对 于 RDD 的 操 
作 都 是 基于 内 存 的 ,因此 ,Executor 的 内 存 大 小 设置 直接 影响 到 程序 的 
性 能 。 

V executor-cores; 用 户 可 以 通过 设 定 来 指定 Executor 使 用 的 服务 器 CPU 内 核 数 
目 ,在 YARN 模式 下 ,可 以 通过 executor-cores 加 数量 参数 指定 每 个 Executor 使 
用 的 内 核 数 ,而 在 Mesos 模式 下 需要 使 用 total-executor-cores 加 数量 参数 来 为 
所 有 Executor 指定 可 以 使 用 的 内 核 总 数 。 

V 程序 地 址 : 指明 了 应 用 程序 的 Jar 包 地 址 ,地 址 既 可 以 是 集群 上 的 HDFS 地 址 ， 
也 可 以 是 本 地 的 文件 地 址 。 

V 程序 参数 : 指明 了 传 给 主 函 数 类 的 参数 。 本 例 中 包含 两 个 参数 ,程序 的 输入 地 
址 和 输出 地 址 。 

在 spark-submit 脚本 可 以 设置 的 参数 还 有 很 多 ,通过 在 spark-submit 脚本 设置 不 同 

的 参数 可 以 使 应 用 程序 运行 的 更 加 高 效 ,这 里 我 们 就 不 一 一 列 出 了 。 
通过 spark-submit 脚本 ,用 户 将 Spark 程序 提交 给 了 Spark ETE, Spark 集群 会 根据 
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spark-submit 脚本 中 的 deploy-mode 设 定 选取 一 台 主 机 运行 Driver 程序 。Driver 程序 根 
据 spark-submit 脚本 中 class 设 定 的 程序 入 口 类 进入 应 用 程序 。 每 个 应 用 程序 入 口 类 
的 主 函 数 内 都 会 包含 一 个 SparkContext 实例 。SparkContext 是 整个 应 用 程序 连接 集群 
的 接口 , 它 将 告诉 应 用 程序 如 何 访问 一 个 Spark 集群 。SparkContext 主要 负责 的 工作 有 
以 下 几 方 面 。 

(1) 接受 SparkConf 参数 : 在 SparkContext 初始 化 时 , Spark 运行 环境 会 将 
SparkConf 相关 的 配置 参数 传递 给 SparkContex ,用 于 配置 应 用 运行 时 的 属性 ,例如 : 要 
连接 的 Master 节点 、 应 用 程序 的 名 称 、sparkHome、 环境 变量 等 。 需 要 注意 的 是 ， 
SparkConf 和 spark-submit 脚本 中 的 参数 都 可 以 对 应 用 运行 时 的 参数 进行 设置 。 但 是 ， 
SparkConf 的 优先 级 要 高 于 spark-submit 脚本 , 如果 你 用 SparkConf 对 象 设置 了 集群 参 
数 , 则 将 覆盖 掉 spark-submit 脚本 内 的 设置 。 

(2) 创建 SparkEnv 运行 环境 : Spark 的 运行 离 不 开 一 些 重要 的 管理 模块 , 像 
BlockManager , CacheManager 等 ,SparkEnv 用 于 根据 之 前 设置 的 集群 参数 创建 这 些 管理 
模块 。 

(3) 资源 申请 : 整个 应 用 程序 通过 SparkContext 与 集群 连接 并 向 Spark 集群 资源 
管理 器 cluster manager 申请 运行 Executor 资源 ,一旦 资源 申请 成 功 ,每 个 应 用 程序 就 会 
获得 分 布 在 不 同 节 点 上 的 Executor 资源 , SparkContext 将 应 用 代码 发 送 给 各 个 
Executor, 由 Executor 实际 完成 应 用 程序 的 计算 任务 。 

(4) 创建 SparkUL: Spark 为 每 一 应 用 程序 都 提供 一 个 单独 的 web UI 管理 界面 。 

(5) 创建 TaskScheduler: TaskSchedular 的 初始 化 会 根据 Spark 运行 的 模式 不 同 而 
不 同 。 初 始 化 启动 后 TaskScheduler 负责 每 个 任务 的 实际 物理 调度 。 

(6) 创建 DAGScheduler; DAGScheduler 根据 创建 的 TaskScheduler 进行 创建 ， 
DAGScheduler 负责 接受 提交 的 计算 任务 ,同时 负责 任务 的 逻辑 调度 。 

(7) 提供 函数 方法 : SparkContext 还 提供 了 多 个 重要 的 函数 方法 以 操作 数据 , 例 
如 ,在 我 们 前 面 的 示例 中 用 到 的 textFile 方法 ,用 于 从 HDFS 路 径 读 取 数据 文件 ,转化 为 
RDD。 

一 且 SparkContext 创建 成 功 , 即 完成 了 Spark 应 用 的 初始 化 ,此 时 ,就 可 以 通过 访 
问 Driver 节点 的 4040 端口 查看 该 应 用 程序 的 状态 。 如 图 3-5 所 示 , 我 们 可 以 看 到 该 程 
序 启 动 了 一 个 Driver 程序 ,并 且 成 功 申请 了 3 个 Executor 资源 。 
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图 3-5 Spark driver 启动 


3.2.4 构建 RDD 有 向 无 环 图 


Spark 应 用 初始 化 并 通过 SparkContext 函数 读 取 输 入 数据 生成 第 一 个 RDD 后 ,后 
续 的 Spark 程序 就 是 通过 RDD 算 子 对 RDD 进行 一 次 又 一 次 的 变换 ,最 终 得 到 计算 结 
果 。 因 此 ,一 个 Spark 应 用 可 以 看 作 一 个 由 “RDD 创建 "到 “一 系列 RDD 转化 操作 ”再 
到 “RDD 存储 "的 过 程 。 在 这 个 过 程 中 ,每 个 RDD 自身 是 不 可 变 的 ,程序 是 通过 将 一 
个 RDD 转化 为 另 一 个 新 的 RDD ,经 过 一 个 像 管道 式 的 流水 线 一 样 一 级 一 级 的 变换 ,将 
初始 RDD 生成 新 的 中 间 RDD ,最 终生 成 你 想 要 的 RDD 并 输出 。 为 了 完成 这 个 转换 过 
程 ,Spark 首先 要 将 我 们 编写 的 程序 或 脚本 中 的 RDD 操作 语句 构建 出 一 个 RDD 有 向 
无 环 图 ( Directed Acyclic Graph, DAG) ,以 进行 后 续 的 拆 分 和 调度 。 

有 向 无 环 图 是 一 种 非常 重要 的 图 论 数 据 结构 。 如 果 一 个 有 向 图 无 法 从 任意 顶点 
出 发 经 过 若干 条 边 回 到 该 点 , 则 这 个 图 就 是 一 个 有 向 无 环 图 。 有 向 无 环 图 的 这 种 连通 
关系 常 被 用 来 表达 节点 间 的 时 序 关系 。 其 中 ,节点 表示 某 种 任务 ,而 边 表示 任务 间 的 
约束 转化 ,任务 间 的 转化 会 形成 一 个 有 序 无 环 的 任务 序列 ,后 续 的 任务 会 依赖 前 面 任 
务 的 执行 ,通常 后 续 的 任务 被 称 为 子 任务 ,而 其 依赖 的 任务 称 为 该 任务 的 父 任 务 。 对 
应 到 Spark 的 RDD 的 有 向 无 环 图 中 , 顶点 代表 了 RDD 及 产生 该 RDD 的 操作 算 子 ,有 
方向 的 边 代 表 算 子 间 的 转化 。 

RDD 有 向 无 环 图 中 ,新 产生 的 RDD( 称 为 子 RDD ) 都 是 通过 若干 个 RDD ( HAR 
RDD ) 转 换 产生 的 ,因此 , 子 RDD 的 内 容 是 依赖 于 父 RDD 的 内 容 的 。Spark 给 RDD 间 
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的 这 种 依赖 关系 起 了 个 名 字 叫 作 Lineage ,其 英文 含义 为 可 以 通过 族谱 从 一 个 人 追溯 到 
之 前 的 几 代 人 ,我 们 可 以 称 之 为 "世系 "。 因 为 Spark 保留 了 每 个 RDD 的 世系 信息 ,所 
以 可 以 从 某 个 RDD 查找 到 其 父 RDD ,并 进而 找到 最 原始 的 那个 RDD。 为 了 确保 世系 
关系 的 唯一 性 ,Spark 规定 了 在 RDD 间 不 存在 直接 或 间接 的 循环 依赖 关系 ,这 也 就 是 
Spark 的 RDD 转化 关系 构成 的 图 是 有 向 无 环 图 的 原因 。 

那么 ,Spark 中 为 什么 要 保留 世系 信息 ,并 支持 通过 一 个 RDD 逐 级 往 上 查找 RDD 
呢 ? 我 们 知道 ,Spark 是 一 个 分 布 式 并 行 计算 系统 ,这 就 不 可 避免 地 存在 某 个 节点 宕 
机 数据 网 络 传输 丢失 等 问题 。 为 了 在 发 生 这 些 问 题 时 , 仍 能 保证 整个 Spark 应 用 能 完 
整 执行 完成 ,就 必须 有 一 种 容错 机 制 。 世 系 信息 的 记录 正 是 为 了 达到 这 个 容错 目的 。 
HHA RDD 的 部 分 数据 丢失 时 ,Spark 会 根据 记录 的 世系 关系 找到 该 RDD 的 父 RDD 
以 及 更 上 级 的 RDD, 只 需要 将 该 RDD 依赖 的 上 级 RDD 重新 计算 就 可 以 将 该 RDD 进 
行 恢 复 。 

因此 ,Spark 的 RDD 有 向 无 环 图 构建 过 程 ,就 是 不 停 地 将 Spark 代码 中 一 系列 的 
RDD 转化 操作 以 世系 关系 的 形式 记录 下 来 。 随 着 代码 的 逐 行 扫描 ,世系 信息 不 断 增 
Ko 但 是 ,在 这 个 过 程 中 ,Spark 还 并 不 会 真正 执行 这 些 转 换 , 而 仅仅 是 进行 记录 ,直到 
出 现 一 类 称 为 行动 ( Action) 算 子 的 特殊 操作 , 才 会 触发 作出 实际 的 RDD 操作 序列 的 动 
TE ,将 行动 算 子 之 前 的 所 有 算 子 操作 形成 一 个 有 向 无 环 图 的 作业 (Job) ,并 将 该 作业 提 
交 给 集群 申请 进行 并 行 作业 处 理 。 这 种 延迟 处 理 的 方式 被 称 为 惰性 计算 ( Lazy 
Evaluation) 。 采 用 惰性 计算 的 好 处 在 于 ,相关 的 操作 序列 可 以 进行 连续 计算 ,而 不 用 担 
心 存储 的 中 间 结 果 需 要 独立 分 配 内 存 存储 空间 ,这样 节 省 了 存储 空间 。 同 时 ,大 型 的 、 

杂 的 运算 作业 被 延迟 到 真正 需要 计算 时 才 被 计算 ,减少 了 大 型 作业 占用 内 存 的 

时 间 。 

经 过 前 面 的 这 些 过 程 ,一 个 Spark 程序 就 被 分 解 为 了 多 个 作业 提交 给 Spark 集群 。 
为 了 更 加 直观 地 展示 这 一 过 程 ,我 们 仍 以 已 经 熟悉 的 WordCount 程序 为 例 进行 说 明 。 
在 WordCount 程序 代码 中 ,只 有 在 运行 到 最 后 一 行 saveAsTextFile 行动 算 子 时 ,Spark 才 
真正 对 RDD 转换 过 程 进行 处 理 。Spark 运行 环境 会 将 之 前 的 flatMap、map、 
reduceByKey 和 saveAsTextFile 算 子 操作 连 成 一 个 有 向 无 环 图 ,并 向 Spark 提交 该 作业 。 
由 于 整个 程序 只 有 一 个 行动 算 子 ,因此 ,程序 只 会 提交 一 个 作业 。 我 们 可 以 在 Spark 的 
Web UI 中 看 到 生成 的 RDD 有 向 无 环 图 ,如 图 3-6 所 示 。 图 中 每 一 个 蓝 色 的 矩形 块 代 
表 了 一 个 RDD ,而 蓝 色 矩形 块 上 的 文字 代表 了 产生 该 RDD 的 算 子 操作 。 
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图 3-6 RDD 有 向 无 环 图 
3.2.5 RDD 有 向 无 环 图 拆 分 


在 前 面 我 们 看 到 ,一 个 Spark 应 用 程序 会 被 分 解 为 多 个 作业 (Job ) 提交 给 Spark 集 
群 进行 处 理 。 然 而 ,作业 并 不 是 应 用 程序 被 拆 分 的 最 小 计算 单元 ,Spark 集群 在 收 到 作 
业 后 还 要 将 作业 继续 进行 两 次 切 分 和 规划 ,并 进行 相应 的 调度 。 第 一 步 是 将 作业 按照 
RDD 转换 操作 切 分 为 最 小 处 理 单元 , 即 任务 (Task) ,第 二 步 是 对 任务 进行 规划 ,生成 包 
含 多 个 任务 的 阶段 (Stage) 。 这 两 步 工作 都 是 由 SparkContext 创建 的 DAGScheduler 实 
例 进行 ,其 输入 是 一 个 作业 中 的 RDD 有 向 无 环 图 ,输出 为 一 系列 任务 ,因此 ,我 们 将 这 
一 步骤 称 为 RDD 有 向 无 环 图 拆 分 。 

在 前 面 我 们 已 经 了 解 到 ,在 RDD DAG 中 , 子 RDD 与 父 RDD 间 是 存在 依赖 关系 
的 。 与 Hadoop 类 似 ,Spark 也 是 一 个 分 布 式 计算 环境 ,因此 ,在 Spark 中 进行 计算 的 每 
一 个 数据 单元 RDD 也 是 可 以 被 切 分 为 更 小 的 数据 块 在 不 同 的 计算 节点 中 处 理 的 ,这 
样 的 数据 块 就 是 分 区 (Partition) 。RDD 在 进行 转换 的 过 程 中 ,就 是 以 分 区 为 最 小 单位 
进行 处 理 的 。 因 此 ,由 于 存在 依赖 关系 的 父子 RDD 间 进 行 转 换 的 分 区 对 应 关系 不 同 ， 
RDD 间 的 依赖 也 分 为 两 个 类 型 : 窄 依赖 和 宽 依 赖 。 图 3-7(a) .图 3-7(b) 中 分 别 展示 
了 这 两 种 依赖 。 图 中 的 每 个 矩形 为 一 个 RDD ,而 椭圆 块 则 为 一 个 分 区 。 这 两 种 依赖 的 
区 别 如 下 。 
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图 3-7 窜 依 赖 与 宽 依 赖 


V PAK: 父 RDD 的 一 个 分 区 ,在 RDD 转换 过 程 中 ,最 多 只 会 被 一 个 子 RDD 的 
分 区 使 用 ,例如 图 (a) 中 的 map 转换 、union 转换 ,和 先进 行 co-Partition 操作 的 
join 转换 。 
V 宽 依 赖 : 父 RDD 的 一 个 分 区 ,在 RDD 转换 过 程 中 ,会 被 多 个 子 RDD 的 分 区 使 
用 ,例如 图 (b) 中 的 groupByKey 转换 和 没有 做 co-Partition 操作 的 join 转换 。 
从 定义 和 图 中 可 以 看 到 ,这 两 种 依赖 关系 存在 本 质 上 的 区 别 。 
V 罕 依 赖 的 分 区 间 的 逻辑 关系 非常 明确 ,对 于 分 区 间 是 一 对 一 的 转换 (例如 map, 
union) ,可 以 在 一 个 计算 节点 内 进行 ,并 且 如 果 有 多 个 这 样 的 窗 依 赖 转换 ,可 以 
在 一 个 节点 内 流水 线 般 执行 。 对 于 分 区 间 有 多 对 一 (多 个 父 RDD 分 区 对 一 个 
F RDD 分 区 ) 的 窄 依赖 转换 (例如 先进 行 co-Partition 操作 的 join 转换 ) ,也 可 
以 在 多 个 节点 间 并 行 执行 ,相互 间 没有 影响 。 同 时 ,在 窄 依赖 的 子 RDD 计算 过 
程 中 某 个 分 区 出 错时 ,只 需要 重新 取得 或 计算 父 RDD 对 应 的 分 区 , 即 可 恢复 子 
RDD 的 这 个 分 区 。 
V 与 此 相反 , 宽 依 赖 则 要 依赖 父 RDD 的 所 有 分 区 数据 ,才能 计算 得 到 子 RDD, 因 
此 ,需要 进行 类 似 Hadoop 中 MapReduce 的 数据 Shuffle 过 程 。 这 就 必然 会 带 来 
网 络 开销 .中 间 结 果 存 储 等 一 系列 开销 较 大 的 问题 。 同 时 ,在 计算 过 程 中 出 错 
时 ,也 必须 取得 和 计算 全 部 父 RDD 的 数据 才能 恢复 ,其 代价 远大 于 窗 依 赖 。 
由 于 窗 依 赖 和 宽 依赖 在 转换 和 容错 时 存在 巨大 的 差异 ,因此 ,Spark 将 应 用 程序 拆 
分 为 任务 后 分 配 到 集群 运行 时 ,并 不 是 直接 将 一 个 一 个 的 转换 操作 对 应 的 任务 直接 进 
行 分 配 , 而 是 加 入 了 一 个 对 任务 进行 规划 的 过 程 ,以 将 适合 放 在 一 起 执行 的 任务 合并 
到 一 个 阶段 中 。 这 一 过 程 由 DAGScheduler 实例 完成 ,其 原则 是 如 果子 RDD 到 父 RDD 
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是 窄 依赖 关系 ,就 可 以 对 其 操作 进行 优化 ,首先 将 多 个 算 子 操作 一 起 处 理 ,最 后 再 进行 
一 次 统一 的 同步 操作 ,这 样 既 减 少 了 大 量 的 全 局 同步 ,又 无 须 存储 很 多 中 间 结 果 。 而 
对 应 宽 依 赖 , 则 尽量 切 分 到 不 同 的 阶段 中 ,以 避免 过 大 的 网 络 传输 和 计算 开销 。 为 了 
达到 这 一 目标 ,应 用 程序 向 Spark 提交 Job 作业 后 , DAGScheduler 会 遍历 RDD 有 向 无 
环 图 。 在 遍历 过 程 中 ,对 于 遇 到 的 连续 窄 依赖 RDD 转换 , 则 尽量 多 地 放 和 人 同一 个 阶段 
中 。 一 旦 遇 到 一 个 宽 依 赖 类 型 的 RDD 转换 操作 , 则 生成 一 个 新 的 阶段 。 这 一 过 程 一 
次 进行 ,直到 遍历 完整 个 RDD 有 向 无 环 图 。 图 3-8 展示 了 一 个 示例 过 程 。 由 A 转换 
为 B 是 一 个 宽 依赖 类 型 的 groupBy 操作 ,因此 ,生成 了 Stage 1。 而 由 C 转换 为 D 的 
map 操作 ,由 D 转换 为 F 的 union 操作 ,都 是 窄 依赖 类 型 ,因此 ,被 放 人 同一 个 Stage 
2。 在 遇 到 由 B 转换 为 G 的 宽 依赖 join 操作 时 , 则 生成 一 个 新 的 Stage 3。 




















图 3-8 Stage 划分 

通过 这 样 的 一 个 过 程 ,DAGScheduler 实现 了 将 依赖 链 进行 分 割 的 操作 。 整 个 依赖 
链 被 划分 为 多 个 Stage 阶段 ,每 个 Stage 内 都 是 一 组 相互 关联 、 但 彼此 之 间 没 有 Shuffle 
依赖 关系 的 任务 集合 , 称 为 任务 集 (TaskSet )。 每 个 TaskSet 包含 多 个 任务 。 
DAGScheduler 会 根据 分 区 的 个 数 ,来 具体 确定 会 生成 多 少 个 任务 。 一 个 分 区 对 应 一 个 
任务 ,每 个 Task 会 在 对 应 的 数据 分 区 上 进行 一 系列 的 数据 处 理 ,同一 阶段 任务 的 执行 
是 并 行 执行 的 。 作 业 (Job) Et ( Stage) {EH SE ( TaskSet ) 和 任务 (Task) 之 间 的 关系 
如 图 3-9 所 示 。 

DAGScheduler 不 仅 负责 将 作业 分 割 为 多 个 阶段 ,还 负责 管理 调度 阶段 的 提交 。 
DAGScheduler 维护 了 3 个 集合 用 以 存储 阶段 的 执行 状态 。 
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[43-9 Job .Stage .TaskSet , Task 关系 图 


(1) waitingStages 集合 : F] RDD 的 父子 依赖 关系 一 样 ,在 一 串 相 互 依赖 的 Stage 
中 ,后 续 的 Stage 被 称 为 子 Stage ,而 其 依赖 的 Stage 称 为 该 Stage 的 父 Stage。 如 果 一 个 
Stage 的 父 Stage 尚未 完成 , 则 waitingStages 集合 将 负责 记录 该 子 Stage。 

(2) runingStage 集合 : 为 了 防止 Stage 的 重复 提交 执行 ,runingStage 集合 中 保存 正 
在 执行 的 Stage。 

(3) failedStage 集合 : failedStage 集合 中 保存 了 执行 失败 的 Stage, 这 些 失败 的 
Stage 需要 重新 提交 执行 。 

DAGScheduler 会 根据 Stage 的 运行 状态 合理 调度 所 有 Stage 提交 到 集群 。 
DAGScheduler 为 每 一 个 Stage 分 配 一 个 Stageld ,用 以 表示 Stage 的 优先 级 ,Stageld 越 小 
优先 级 越 高 , 越 应 该 最 先 提交 给 集群 执行 。 由 于 DAGScheduler 是 反 向 遍历 整个 RDD 
依赖 链 的 ,因此 ,由 最 后 一 个 RDD 生成 的 FinalStage 的 StagelD 最 小 ,应 该 首先 被 提交 。 
但 是 ,DAGScheduler 对 Stage 的 提交 还 需要 参考 Stage 间 的 依赖 关系 以 及 Stage 的 执行 
情况 ,如 果 一 个 Stage 的 父 Stage 仍 处 于 未 完成 的 状态 , 则 该 Stage 将 被 延迟 提交 直到 等 
到 该 Stage 的 所 有 父 Stage 全 部 完成 才 被 提交 。 因 此 ,虽然 FinalStage 的 StagelD 最 小 ， 
但 它 首先 需要 等 待 其 父 Stage 的 提交 。 如 果 FinalStage 的 所 有 父 Stage 都 已 经 提交 并 已 
产生 可 用 的 结果 , 则 提交 该 FinalStage。 如 果 有 任何 一 个 父 Stage 的 结果 不 可 用 , 则 尝 
试 迭代 提交 当前 不 可 用 的 父 Stage。 该 不 可 用 的 父 Stage 的 提交 遵循 与 FinalStage 同样 
的 判别 标准 。 以 此 迭代 ,直到 遇 到 可 提交 的 Stage , 便 将 其 提交 给 Spark 集群 首先 执行 。 

为 了 更 直观 地 理解 RDD 有 向 无 环 图 拆 分 的 过 程 ,我 们 同样 还 是 用 已 经 熟悉 的 
WordCount 程序 为 例 进行 实例 展示 。 在 收 到 提交 的 作业 后 ,Spark 会 首先 从 RDD 依赖 
链 的 最 后 一 个 RDD 进行 判断 , 当 遍 历 到 由 reduceByKey 产生 的 一 个 ShuffleRDD Hf, 
Spark 对 整个 依赖 链 进 行 了 一 次 分 割 ,由 于 在 整个 应 用 程序 的 依赖 关系 中 只 有 一 个 宽 
依赖 操作 ,因此 ,DAGScheduler 最 终 将 wordcount 程序 切 分 成 2 个 stage, Web UI 中 看 
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到 生成 的 Stage 如 图 3-10 所 示 。 
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图 3-10 Stage 实例 图 
在 Spark 提供 的 时 间 轴 的 可 视 化 视图 中 ,我们 可 以 看 到 一 共有 两 个 Stage 的 运行 时 
间 轴 ,虽然 第 二 个 Stage 首先 被 Spark 遍历 ,但 是 第 一 个 Stage 首先 被 执行 ,第 二 个 Stage 
等 待 第 一 个 Stage 完成 后 才 开 始 执行 。 这 一 过 程 如 图 3-11 所 示 。 














Details for Job 0 


Status: SUCCEEDED 


Completed stages: 2 
event Tene 
dv Enatte zooming 
Executors 
国 woed 
E Removes 
Stages 
iei [LII I med 
国 raeo 
B Ate 
a — o (x9 — x6 «9  uX wo (Xo xe 4 60 — wo 
100005 10000 100007 1000.08 
+ DAG Vsuatzato 
Completed Stages (2) 
stage Tasks: ume shume 
a Desenptior suomea Duration succeedearTotai input Output Read — We 
1 saveAsTent ie at «console eats 20150709 oo asr 
100007 
o —— mapat-tonsoes28 tataie 20150709 ^ N >: ase 
100005 * 





图 3-11 Stage 执行 顺序 
3.2.6 Task 调度 


DAGScheduler 将 建立 好 的 TaskSet 提交 给 TaskScheduler 后 ,DAGScheduler 对 任务 
的 调度 工作 就 算 完成 了 。DAGScheduler 只 是 完成 了 将 作业 的 有 向 无 环 图 分 割 为 


3.2 Spark 架构 及 运行 机 制 69 


Stage ,并 生成 了 一 个 Stage 执行 的 有 序 计算 序列 。 而 TaskScheduler 真正 决定 了 Stage 
中 的 每 个 Task 由 哪个 物理 节点 执行 。 有 向 无 环 图 .DAGScheduler 和 TaskScheduler 之 
间 的 关系 如 图 3-12 所 示 。 
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图 3-12 Task 调度 


TaskScheduler 会 为 每 一 个 收 到 的 TaskSet 创建 一 个 TaskSetManager。 由 
TaskSetManager 负责 TaskSet 中 Task 的 管理 调度 工作 ,但 是 TaskSetManager 并 不 直接 与 
底层 的 实际 物理 节点 通信 ,而 是 通过 TaskScheduler 这 个 中 间 层 来 协调 每 个 
TaskSetManager 与 底层 物理 节点 的 交互 工作 。 一 方面 TaskScheduler 会 通过 
SchedulerBackend 与 底层 的 Master worker 节点 进行 通信 ,SchedulerBackend 是 调度 器 的 
后 台 进 程 。TaskScheduler 会 根据 部 署 方式 的 不 同 而 选择 不 同 的 SchedulerBackend 来 处 
EE, 了 解 可 以 分 配给 应 用 程序 的 物理 资源 的 情况 ,SchedulerBackend 可 以 使 用 Mesos, 
YARN „Standalone 等 多 种 形式 。 另 一 方面 ,TaskScheduler 会 将 可 用 的 物理 资源 提供 给 
TaskSetManager, 由 TaskSetManager 确定 每 个 Task 应 该 在 那个 物理 资源 上 执行 ,并 将 调 
度 计划 发 给 TaskScheduler, 由 TaskScheduler 将 Task 提交 给 Spark 集群 实际 执行 。 
TaskScheduler 将 Task 提交 给 Spark 集群 后 还 会 跟踪 Task 的 执行 情况 ,如 果 Task 提交 
失败 , 它 会 负责 尝试 重新 提交 该 Task。 同 一 TaskSet 中 的 多 个 Task 是 并 行 执行 的 ,只 
有 TaskSet 中 的 所 有 Task 全 部 完成 该 TaskSet 才 算 真正 完成 ,如 果 被 分 配 到 某 个 物理 
节点 上 的 Task 长 时 间 未 完成 ,拖延 了 整个 TaskSet 的 执行 时 间 ,TaskScheduler 会 选择 一 
个 新 的 可 用 物理 节点 执行 该 Task。 
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TaskScheduler 为 每 个 TaskSet 启动 的 TaskSetManager 负责 管理 每 个 TaskSet 的 内 
部 调度 任务 ,维护 整个 TaskSet 的 生命 周期 。TaskSetManager 的 调度 策略 是 基于 位 置 感 
知 的 任务 调度 。TaskSetManager 会 根据 可 用 资源 的 情况 尽量 为 每 个 Task 选择 最 佳 本 
地 化 (Locality ) 的 Executor 进行 匹配 。 也 就 是 说 ,Spark 会 首先 判断 同一 个 Stage 中 首 个 
RDD 各 个 分 区 (Partition) 的 位 置 ,每 个 Task 是 对 一 个 分 区 的 一 串 操 作 ,Spark 会 尽量 将 
对 一 个 分 区 的 Task 操作 保持 在 同一 地 点 。 最 理想 的 情况 是 将 同一 个 Task 的 前 后 操作 
放 到 同一 进程 中 ,如 果 条 件 得 不 到 满足 可 以 退 而 寻求 在 同一 计算 节点 中 ,如 果 还 不 能 
满足 就 会 寻求 在 同一 个 机 架 运 行 的 可 能 。 最 终 TaskSetManager 选择 一 个 最 为 合适 运 
行 的 计算 资源 ,将 该 资源 的 申请 交 给 TaskScheduler。 
一 个 应 用 程序 最 终 会 拆 分 为 多 个 TaskSet 任务 集 , 由 于 有 的 TaskSet 任务 集 间 没有 
依赖 关系 ,因此 ,同一 时 间 可 能 会 存在 多 个 可 运行 的 TaskSet 任务 集 交 给 TaskScheduler 
进行 调度 。 在 这 种 情况 下 Spark 可 以 采用 两 种 调度 模式 : FIFO 和 FAIR. 
* FIFO; FIFO 是 先进 先 出 的 调度 模式 ,是 Spark 默认 的 调度 模式 。FIFO 的 调度 
模式 如 图 3-13(a) 所 示 。FIFO 直接 调度 管理 的 是 TaskSet ,每 个 TaskSet 创建 时 
都 对 应 了 一 个 StagelD 和 JobID ,FIFO 调度 根据 StagelD 和 JobID 的 大 小 来 调度 
TaskSet , 相当 于 依据 StagelD 和 JobID 的 大 小 对 TaskSet 进行 了 两 级 排序 ,JobID 
的 大 小 为 第 一 级 排序 ,StagelD 的 大 小 为 第 二 级 排序 ,数值 较 小 的 将 首先 进入 任 
务 执行 队列 ,优先 被 调度 。 这 种 先进 先 出 的 FIFO 调度 方式 存在 的 一 个 缺点 是 
当 遇 到 一 个 耗 时 较 长 的 大 任务 时 ,后 续 任 务必 须 等 待 这 个 耗 时 任务 执行 完成 
才能 得 到 可 用 的 计算 资源 。 
FAIR ; FAIR 是 公平 调度 模式 ,调度 模式 如 图 3-13(b) 所 示 。 在 FAIR 模式 下 每 

个 计算 任务 具有 相等 的 优先 级 ,Spark 以 轮 询 的 方式 为 每 个 任务 分 配 计算 资 
源 。FAIR 不 像 FIFO 调度 那样 必须 等 待 前 面 耗 时 任务 完成 后 后 续 任 务 才 能 执 
行 。 在 FAIR 模式 下 ,无 论 是 短 任务 还 是 耗 时 任务 ,无论 是 先 提 交 的 任务 还 是 
后 提交 的 任务 都 可 以 公平 的 获得 资源 执行 ,这 样 就 提高 了 短 任务 的 响应 时 间 。 
同时 ,FAIR 调度 模式 比 FIFO 调度 模式 更 加 灵活 ,FAIR 调度 模式 为 用 户 提供 一 
个 调度 池 的 概念 ,用 户 可 以 将 重要 的 计算 任务 放 和 人 一 个 调度 池 Pool 中 ,通过 设 
置 该 调度 池 的 权重 来 使 该 调度 池 中 的 计算 任务 获得 较 高 的 优先 级 。 除 此 之 
外 , 当 有 多 个 用 户 同 时 使 用 Spark 集群 时 ,FAIR 调度 模式 可 以 为 每 一 个 用 户 设 
置 一 个 调度 池 ,调度 池 间 具有 相同 的 优先 级 ,这 样 就 保证 了 每 个 用 户 可 以 平等 
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3.2.7 Task 执行 


通过 上 一 小 节 的 介绍 我 们 了 解 到 ,TaskScheduler 会 在 集群 中 选择 合适 的 计算 资源 
提供 给 TaskSetManager。TaskScheduler 在 集群 中 选择 的 Worker 节点 需要 满足 两 个 条 
件 : DWorker 节点 内 存 大 小 必须 可 以 满足 应 用 程序 设 定 的 executor-memoy 大 小 ; 
@ Worker 节点 的 内 核 数 可 以 满足 应 用 程序 设 定 的 executor-core 数 。 如 果 Worker 节点 
满足 以 上 两 个 条 件 就 会 被 TaskScheduler 选中 为 可 用 的 计算 资源 ,在 该 Worker 节点 上 
就 会 启动 Executor 进程 ,等 待 TaskScheduler 将 合适 的 Task 分 发 给 它 运行 。 

每 一 个 满足 条 件 的 Worker 节点 会 为 每 一 个 应 用 程序 独立 地 启动 一 个 Executor 进 
程 , 由 该 Executor 进程 全 权 负责 该 应 用 程序 的 Task 任务 ,集群 中 的 多 个 Worker 节点 的 
Executor 进程 在 收 到 Task 后 ,就 会 开始 相互 独立 的 并 行 完 成 Task 的 计算 任务 。 在 每 
个 Worker 节点 可 以 启动 多 个 Executor 进程 来 满足 多 个 应 用 程序 的 请 求 , 而 每 个 
Executor 进程 都 单独 的 运行 在 Worker 节点 一 个 JVM 进程 中 ,每 个 Task 则 是 运行 在 
Executor 中 的 一 个 线程 。 某 个 应 用 程序 的 Executor 进程 一 旦 被 创建 将 一 直 运 行 , 且 它 
的 资源 可 以 一 直 被 多 批 Task 任务 复 用 ,资源 不 会 在 应 用 程序 的 计算 过 程 中 被 释放 ,这 
避免 了 重复 申请 资源 带 来 的 时 间 开销 值 ,资源 会 始终 保留 直到 该 Spark 程序 运行 完成 
后 才 会 释放 退出 。 

与 DAGScheduler— TaskScheduler— Executor 的 任务 分 发 过 程 正 好 相反 ,Executor 会 
反 向 逐 级 向 上 报告 任务 的 运行 状态 。 如 图 3-14 所 示 。 

Executor 上 对 任务 状态 的 标志 主要 有 4 种 情况 。 
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图 3-14 任务 状态 上 报 机 制 

(1) Executor 收 到 任务 后 ,尚未 完成 对 Task 执行 任务 ,此 时 Task 的 状态 为 
RUNNING, 

(2) 如 果 Task 运行 过 程 中 发 生 错 误 , 此 时 , Task 的 状态 将 被 标记 为 FAILED, 
Executor 会 将 错误 的 原因 进行 上 报 。 

(3) 如 果 Task 在 中 途 被 人 为 或 者 其 他 原因 Kill 掉 了 , 则 此 时 Task 的 状态 将 被 标 
记 为 KILLED ,Executor 会 将 kill 的 原因 上 报 给 TaskScheduler。 

(4) 如 果 某 个 Executor 进程 的 Task 计算 完成 ,此 时 Task 的 状态 为 FINISHED ,该 
Executor 进程 就 会 将 结果 进行 保存 ,并 将 结果 及 状态 信息 反馈 给 TaskScheduler ,并 等 待 
TaskScheduler 为 其 分 配 下 一 个 Task 任务 。 

TaskScheduler 收 到 Executor 发 来 的 结果 及 状态 信息 后 ,就 会 找到 该 Task 对 应 的 
TaskSetManager, 将 该 Task 的 完成 情况 通知 给 对 应 的 TaskSetManager。 如 果 
TaskSetManager 所 管理 维护 的 所 有 Task 均 已 完成 ,TaskSetManager 会 自动 结束 关闭 ,并 
将 该 TaskSetManager 的 运行 结果 告知 DAGScheduler。 如 果 该 TaskSetManager 对 应 的 
Stage 是 FinalStage ,就 将 运输 结果 本 身 返 还 给 DAGScheduler。 而 如 果 对 应 的 是 中 间 的 、 
由 Shuffle 操作 而 被 分 割 开 的 Stage, 则 返还 给 DAGScheduler 的 是 运算 结果 在 存储 模块 
的 相关 位 置信 息 , 这 些 存储 位 置信 息 将 作为 下 一 个 调度 Stage 的 输入 数据 ,下 一 个 
Stage 读 取 该 输入 数据 进行 计算 ,就 这 样 反复 进行 任务 分 发 ,任务 执行 和 任务 执行 信息 
上 报 的 过 程 直到 全 部 任务 完成 ,该 应 用 程序 也 就 执行 完成 了 。 

在 Spark 提供 的 可 视 化 视图 中 ,我 们 可 以 观察 到 全 部 Task 的 运行 状态 ,以 便 我 们 

了 解 任务 的 运行 情况 ,图 3-15 是 wordcount 程序 中 第 一 个 Stage 的 Task 运行 情况 。 由 
图 中 我 们 可 以 看 出 ,第 一 个 Stage 的 3 个 Task 全 部 执行 成 功 ,没有 Failed Tasks, 
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在 上 一 章 中 我 们 介绍 了 Spark 的 运行 原理 ,机 制 和 节点 功能 。 我 们 可 以 看 到 ， 
Spark 计算 框架 中 的 核心 数据 结构 是 RDD, 而 要 完成 一 个 简单 或 复杂 的 计算 ,其 关键 就 
在 于 如 何 将 数据 生成 为 RDD ,然后 对 RDD 进行 变换 和 操作 ,以 获得 最 终 需要 的 计算 结 
果 。 完 成 这 一 过 程 的 关键 就 是 Spark 的 另 一 核心 技术 : RDD 算 子 。RDD 算 子 是 Spark 
计算 框架 中 定义 的 对 RDD 进行 操作 的 各 种 函数 ,从 RDD 算 子 的 功能 角度 来 说 ,我 们 
将 RDD 算 子 分 为 四 类 : 创建 算 子 、 变 换算 子 , 行 动 算 子 和 缓存 算 子 。 本 章 我 们 就 对 这 
4 类 中 的 主要 算 子 进 行 详细 说 明 ,为 了 便于 对 众多 算 子 的 理解 和 掌握 ,我 们 还 会 通过 实 
际 用 例 展示 这 些 算 子 的 作用 。 
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创建 RDD 可 以 说 是 使 用 Spark 处 理 和 分 析 数 据 的 第 一 步 。 创 建 RDD 有 两 种 方 
式 , 一 种 是 将 基于 Scala 的 集合 类 型 数据 (例如 list 或 set 类 型 ) 分 布 到 集群 中 生成 
RDD , 另 一 种 是 加 载 外 部 的 数据 源 ( 例如 本 地 文本 文件 或 HDFS 文件 ) 生 成 RDD。 这 两 
种 方式 都 是 通过 SparkContext 的 接口 函数 提供 的 ,其 中 ,前 者 比较 简单 , 仅 包 含 两 个 函 
数 : makeRDD 和 parallelize, 而 后 面 一 种 方式 为 了 支持 不 同形 式 和 不 同 格式 的 文件 , 提 
供 了 较 多 的 函数 。 下 面 我 们 逐一 说 明 。 


4.1.1 基于 集合 类 型 数据 创建 RDD 














* SparkContext. makeRDD 一 一 创建 RDD 

V 算 子 函数 格式 : 

makeRDD 算 子 有 两 个 形式 ,一 个 可 以 指定 分 区 数量 , 另 一 个 可 以 指定 分 区 所 在 的 
节点 ,下 面 我 们 分 别 进 行 说 明 。 
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- makeRDD [T] (seq:Seq [T], numSlices: Int = defaultParallelism) (implicit 
arg0:ClassTag [T]):RDD[T] 


输入 参数 seq 为 一 个 数据 集 , numSlices 是 分 区 的 数量 ,如 果 不 指定 数量 ,将 使 用 
Spark 配置 中 的 spark. default. parallelism 参数 所 生成 的 defaultParallelism 数值 ,为 默认 
的 分 区 数量 。 函 数 执行 后 将 seq 指定 的 数据 集 分 布 到 节点 上 形成 RDD ,并 返回 生成 
的 RDD。 


-makeRDD [T] (seq:Seq[(T, Seq[String])]) (implicit arg0: ClassTag [T]) :RDD 
[T] 


输入 参数 seq 为 一 个 集合 数据 集 , 参数 String 序列 指定 了 希望 将 该 数据 集 产 生 的 
RDD 分 区 希望 放置 的 节点 ,这 些 节点 可 以 使 用 Spark. 节点 的 主机 名 ( Hostname ) 描述 。 
算 子 执行 后 ,集合 数据 seq 将 分 布 到 这 些 节 点 上 形成 RDD ,并 返回 最 终生 成 的 RDD。 

V 示例 : 

CHE: 以 下 示例 可 以 在 Spark Shell 中 执行 ,其 中 每 行 开始 为 语句 的 行 标号 ， 
"scala > "后 为 输入 的 Scala 语句 ,其 他 的 为 执行 结果 ,本 章 之 后 的 示例 代码 均 为 此 
格式 。) 

代码 第 1 行将 1 到 6 构成 的 数组 ,生成 2 个 分 片 的 RDD 赋 给 变量 rdd。 代 码 第 2 
行使 用 collect 算 子 ( 后 面 我 们 会 介绍 ) , 显示 rdd 变量 的 内 容 。 代 码 第 3 行使 用 
partitions 算 子 显示 rdd 变量 的 分 区 信息 。 代 码 第 4 行 生成 数据 序列 data, 并 指定 分 区 0 
(数据 为 1 到 6 的 序列 ) 存 放 于 hostl 和 host2 ,指定 分 区 1 到 10( 数 据 为 7 到 10 的 序 
列 ) 存 放 于 host3。 代 码 第 5 行使 用 生成 的 data 序列 产生 新 的 RDD 变量 rdd。 代 码 第 6 
行 再 次 显示 新 的 变量 rdd 中 的 内 容 。 通 过 代码 第 7 行 和 第 8 行 ,我们 可 以 分 别 看 到 rdd 
的 分 区 0 和 1 所 存储 的 位 置 。 





makeRDD 示例 代码 


1: scala? val rdd=sc.makeRDD(1 to6,2) 

rdd: org.apache. spark. räd. RDD [Int] = ParallelCollectionRDD [1] at 
makeRDD at «console >:21 
2: scala» rdd.collect 

res1: Array [Int] =Array(1,2,3,4,5, 6) 
3: scala? rdd.partitions 

res2: Array [org.apache.spark.Partition] - Array (org.apache.spark.rdd. 
ParallelCollectionPartition @ 6ba, org. apache. Spark. rdd. 
ParallelCollectionPartition @ 6bb) 
4: Scala? val data -Seq((1 to 6, Seq("hosti","host2")), (7 to 10, Seq 
("host3"))) 
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data: Seq[(scala.collection.immutable.Range.Inclusive, Seq [String])] 
-List((Range(1,2,3,4,5, 6),List(hostl, host2)), (Range (7, 8, 9, 10), List 
(host3))) 
5: scala? val rdd = sc.makeRDD (data) 

rdd: org. apache. spark. rdd. RDD [scala. collection. immutable. Range. 
Inclusive] = ParallelCollectionRDD[3]at makeRDD at € console >:23 
6: scala? rdd.collect 

res10: Array [scala. collection. immutable. Range. Inclusive] - Array 
(Range(1,2,3,4,5, 6), Range(7, 8, 9, 10)) 
7: Scala? rdd.preferredLocations (rdd.partitions (0)) 

res11: Seq[String] -List (hostl, host2) 
8: scala? rdd.preferredLocations (rdd.partitions (1)) 

res12: Seq[String] =List (host3) 


* SparkContext. parallelize 一 一 数据 并 行 化 生成 RDD 
V 算 子 函数 格式 : 


-parallelize[T](seq: Seq[T], numSlices: Int -defaultParallelism):RDD 


将 集合 数据 seq 分 布 到 节点 上 形成 RDD ,并 返回 生成 的 RDD。numSlices 是 分 区 
的 数量 ,如 果 不 指定 数量 ,将 使 用 Spark 配置 中 的 spark. default. parallelism 参数 所 生成 
的 defaultParallelism 数值 , 为 默认 的 分 区 数量 。 可 以 看 到 , parallelize 函数 与 上 面 的 
makeRDD 作用 类 似 , 只 是 不 能 指定 分 区 希望 放置 的 节点 。 

V 示例 : 

代码 第 1 行将 1 到 6 构成 的 数组 ,生成 2 个 分 片 的 RDD 赋 给 变量 rdd。 代 码 第 2 
行使 用 collect 算 子 显示 rdd 变量 的 内 容 。 代 码 第 3 行使 用 partitions 算 子 显示 rdd 变量 
的 分 区 信息 。 





parallelize 示例 代码 


1: scala? val rdd-sc.parallelize (1 to 6,2) 

rdd: org. apache. spark. rdd. RDD [Int] = ParallelCollectionRDD [0] at 
parallelize at «console >:21 
2: scala»? rdd.collect 

res0: Array[Int] =Array(1,2,3,4,5, 6) 
3: scala? rdd.partitions 

resi: Array [org.apache.spark.Partition] - Array (org.apache.spark.rdd. 
ParallelCollectionPartition@691, org. apache. spark.  rdd.Parallel 
CollectionPartition@ 692) 


4.1.2 基于 外 部 数据 创建 RDD 
Spark 支持 两 种 从 外 部 文件 数据 创建 RDD 的 方式 ,一 种 是 外 部 文本 文件 , 另 一 种 
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是 Hadoop 文件 系统 中 的 各 类 文件 格式 。 对 于 后 者 ,由 于 Hadoop 在 0. 20 版 本 的 前 后 
分 别 有 两 种 InputFormat 定义 (org. apache. hadoop. mapred 和 org. apache. hadoop. 
mapreduce. InputFormat ) ,所 以 Spark 的 创建 RDD 操作 接口 也 提供 了 对 应 的 两 套 方式 。 
由 于 使 用 旧 Hadoop API 的 场景 很 少 , 仅 在 基于 Hadoop 0. 20 之 前 版 本 安装 的 Hadoop 
集群 环境 中 才 需 要 。 根 据 我 们 的 了 解 ,使 用 这 种 集群 的 环境 已 经 非常 少 了 ,因此 在 这 
里 我 们 就 不 再 介绍 此 类 接口 , 感 兴趣 的 读者 可 以 查阅 Spark 的 官方 API 说 明 : https :// 
spark. apache. org/ docs/ latest/ api/ scala/ index. html#org. apache. spark. SparkContext。 

Spark 提供 的 基于 外 部 数据 创建 RDD 的 算 子 主要 有 以 下 两 类 。 

(1) 基于 文本 文件 创建 RDD。 

* Spark Context. textFile 一 一 基于 文本 文件 创建 RDD 

V 算 子 函数 格式 : 























- textFile (path: String, minPartitions: Int = defaultMinSplits): RDD 
[String] 


从 HDFS ,本 地 文件 系统 或 者 其 他 Hadoop 支持 的 文件 系统 , 按 行 读 入 指定 路 径 下 
的 文本 文件 ,并 返回 生成 的 RDD, path 是 待 读 和 人 的 文本 文件 的 路 径 。minSplits 是 分 区 
的 数量 ,如 果 不 特 别 指定 ,默认 情况 下 将 按照 min( defaultParallelism, 2) 设置 分 区 数量 ， 
其 中 defaultParallelism 参数 根据 Spark 配置 中 的 spark. default. parallelism 生成 。 

V 示例 : 





textFile 示例 代码 


1: scala? val textFile -sc.textFile ("README .md") // 读 取 README .md 文件 
textFile: spark .RDD [String] =spark.MappedRDD@ 2ee9b6e3 

2: scala>textFile.count () // 显 示 rad 的 行 数 
res0: Long -126 

3: scala? textFile.first()// iim rda 中 第 一 行 的 内 容 
resl: String - f Apache Spark 


* SparkContext. wholeTextFiles 一 一 基于 一 个 目录 下 的 全 部 文本 文件 创建 RDD 
V 算 子 函数 格式 : 


-wholeTextFiles (path:String,minPartitions:Int = defaultMinPartitions): 
RDD[(String,String)] 
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从 HDFS ,本 地 文件 系统 或 者 其 他 Hadoop 支持 的 文件 系统 , 按 行 读 人 指定 目录 下 
的 所 有 文本 文件 ,并 返回 生成 的 RDD。path 是 待 读 人 的 所 有 文本 文件 的 所 在 目录 。 
minPartitions 是 分 区 的 数量 , 如果 不 特别 指定 ,默认 情况 下 将 按照 min 
( defaultParallelism , 2) 设 置 分 区 数量 ,其 中 defaultParallelism 参数 根据 Spark 配置 中 的 
spark. default. parallelism 生成 。 





wholeTextFiles 示例 代码 


1:scala>val rdd = sc.wholeTextFiles ("hdfs://data") 

rdd: org.apache.spark.rdd.RDD[(String, String)] -hdfs://data 
WholeTextFileRDD[0]at wholeTextFilesat « console >:12 
:scala>textFile.count () // 显示 rad 的 行 数 

res0: Long -126 

:Scala? textFile.first() // 显 示 rdd 中 第 一 行 的 内 容 

resl: String =# Apache Spark 


N 


w 


(2) 基于 新 Hadoop API 从 Hadoop 文件 数据 创建 RDD, 

* SparkContext. newAPIHadoopFile 一 一 基于 Hadoop 文件 创建 RDD 

V 算 子 函数 格式 : 

newAPIHadoopFile 函数 有 两 个 形式 ,一 个 不 可 以 设 定 Hadoop 配置 , 另 一 个 则 可 以 
设 定 Hadoop 配置 。 


-newAPIHadoopFile[K, V, F «:InputFormat [K, V]](path: String) (implicit km: 
ClassTag[K], vm: ClassTag [V], fm:ClassTag [F]) : RDD[ (K,V)] 


从 HDFS 文件 系统 或 者 其 他 Hadoop 支持 的 文件 系统 , 读 取 path 指定 的 输入 文件 
路 径 , 按 照 参数 指定 的 输入 文件 格式 参数 指定 的 Key 类 型 和 参数 V 指定 的 Value 
类 型 读 取 文件 。 


- newAPIHadoopFile [K, V, F <: InputFormat [K, V]] (path: String, fClass: 
Class [F], kClass: Class [K], vClass: Class [V], conf: Configuration - 
hadoopConfiguration): RDD[(K, V)] 


从 HDFS 文件 系统 或 者 其 他 Hadoop 支持 的 文件 系统 , 读 取 path 指定 的 输入 文件 
路 径 ,按照 参数 F 指定 的 输入 文件 格式 参数 指定 的 Key 类 型 和 参数 V 指定 的 Value 
类 型 读 取 文件 ,并 可 使 用 参数 conf 传人 Hadoop 配置 。 
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V 示例 : 


newAPIHadoopFile 示例 代码 


1: scala> val rdd = sc.newAPIHadoopFile [LongWritable, Text, TextInput 
Format ] ("README .md") 

rdd: org.apache. spark. rdd.RDD [(org. apache. hadoop.io.LongWritable, 
org. apache. hadoop. io. Text )] = README. md NewHadoopRDD [1] at 
newAPIHadoopFile at <console>:14 
2: scala»? textFile.count () // ibm rad 的 行 数 

res0: Long -126 
3: scala>textFile.first ()// 显 示 rad 中 第 一 行 的 内 容 

resl: String =# Apache Spark 


e SparkContext. newAPIHadoopRDD 一 一 基于 Hadoop 数据 创建 RDD 
V 算 子 函数 格式 : 


- newAPIHadoopRDD [K, V, F €: InputFormat [K, V]] (conf: Configuration = 
hadoopConfiguration, fClass: Class [F], kClass: Class [K], vClass: Class 
[V]) : RDD[(K, V)] 


参数 conf 指定 Hadoop 配置 ,参数 下 指定 的 输入 数据 格式 ,参数 指定 的 Key 类 
型 ,参数 V 指定 Value 类 型 。 与 上 面 的 “newAPIHadoopFile” 接 口 不 同 ， 
“newAPIHadoopRDD” 没 有 文件 路 径 的 参数 ,因此 这 个 接口 通常 用 来 读 取 诸如 HBase 这 
类 数据 库 中 的 数据 构建 RDD, 

V 示例 : 

下 面 的 示例 代码 ( 注意 ,它们 不 是 scale shell 下 可 运行 的 脚本 ) 展示 了 如 何 使 用 
newAPIHadoopRDD 从 HBase 表 user 中 读 取 年 龄 大 于 20 岁 的 用 户 信息 ,并 统计 人 数 的 
过 程 。 


newAPIHadoopRDD 示例 代码 


1: conf.set (TableInputFormat .INPUT_TABLE, "user") // 设 置 使 用 的 HBase KA 
2: val scan =new Scan () // 设 置 过 滤 条 件 为 年 龄 大 于 20 岁 
3: scan.setFilter (new SingleColumnValueFilter ("basic".getBytes,"age". 
getBytes,CompareOp.GREATER OR EQUAL,Bytes.toBytes (18))) 
4: conf.set (TableInputFormat.SCAN,convertScanToString (scan)) 
5: val usersRDD = sc.newAPIHadoopRDD (conf, classOf [TableInputFormat], 
classOf [org .apache .hadoop .hbase.io.ImmutableBytesWritable], 
classOf [org.apache .hadoop .hbase.client .Result])// 读 取 数 据 构建 RDD 
6: val count =usersRDD.count ()// 统 计 符 合 条 件 的 用 户 数 
7: println("Users RDD Count:" + count)// 输 出 结果 
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变换 ( Transformation) 算 子 就 是 对 RDD 进行 操作 的 接口 函数 ,其 作用 是 将 一 个 或 
多 个 RDD 变换 为 新 的 RDD。 如 果 说 RDD 是 Spark 计算 模式 中 的 核心 ,那么 变换 类 算 
子 可 以 说 是 Spark 核心 中 的 核心 。 使 用 Spark 进行 数据 计算 ,在 利用 创建 算 子 生成 
RDD 后 ,数据 处 理 的 算法 设计 和 程序 编写 的 最 关键 部 分 ,就 是 利用 变换 算 子 对 原始 数 
据 产生 的 RDD 进行 一 步 一 步 的 变换 ,最 终 得 到 期 望 的 计算 结果 。 也 因为 其 重要 性 ， 
Spark 中 提供 了 大 量 的 变换 类 算 子 ,这 些 算 子 都 是 RDD 对 象 的 接口 函数 。 为 了 便于 理 
解 和 掌握 众多 的 变换 算 子 ,我 们 将 它们 分 为 两 类 : OX Value 型 RDD 进行 变换 的 算 
T; QE Key/ Value 型 RDD( 或 称 PairRDD ) 进行 变换 的 算 子 。 同 时 ,每 个 大 类 都 按照 
算 子 可 操作 的 RDD 数量 分 为 仅 对 一 个 RDD 进行 变换 和 对 两 个 RDD 进行 变换 的 两 个 
小 类 。 下 面 我 们 就 对 它们 进行 详细 并 带 有 实例 的 说 明 。 考 虑 到 阅读 本 书 的 读者 应 该 
大 多 对 Java 比较 了 解 ,但 对 Scala 并 不 一 定 很 熟悉 ,因此 我 们 在 展示 后 面 这 些 相 对 复杂 
的 算 子 时 选取 的 是 算 子 的 Java 版 本 以 便于 理解 。 





4.2.1 对 Value 型 RDD 进行 变换 


对 Value 型 RDD 进行 变换 ,可 以 通过 org. apache. spark. api. java. JavaRDD 类 下 的 
接口 函数 进行 操作 ,本 节 我 们 对 其 中 的 一 些 主要 函数 进行 带 有 实例 的 介绍 。 更 多 其 他 
函数 可 以 访问 Spark 的 官方 API 查看 : http:// spark. apache. org/ docs/ latest api/ 
scala/ index. html#org. apache. spark. api. java. JavaRDD。 


4.2.1.1 对 单个 Value 型 的 RDD 进行 变换 
。 map 一 一 map 变换 

V 算 子 函数 格式 : 

-map [R] (f: Function[T, R]): JavaRDD[R] 


map 函数 是 Hadoop 的 MapReduce 计算 模式 中 耳熟能详 的 计算 函数 ,因此 我 们 选 
择 从 map 算 子 开始 介绍 Spark 的 变换 算 子 。 与 Hadoop 的 Map 函数 类 似 ,map 算 子 也 
是 将 函数 人 作用 于 当前 RDD 的 每 个 元 素 ,形成 一 个 新 的 RDD, 
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V 示例 : 


map 示例 代码 


1: scala? val list - sc.parallelize (List (1,2,3,4),2)// 构建 一 个 名 为 list 
的 RDD 

list: org.apache.spark.rdd.RDD[Int] -ParallelCollectionRDD[0]at 
parallelize at «console >:21 
2: scala>list.map(x=>x+1).collect //Xf list 中 的 每 个 元 素 进行 «1 操作 ,形成 
新 的 RDD 


res0: Array[Int] -Array 2,3,4,5) 


示例 代码 的 变换 过 程 可 由 图 4-1 所 示 , 左 侧 RDD KRAAIE) 中 的 每 个 元 素 经 
过 函数 {变换 后 ,形成 右 侧 新 的 RDD。 其 中 左 侧 虚线 矩形 代表 RDD 中 的 一 个 分 区 ,我 
们 可 以 看 到 map 算 子 操作 的 RDD 中 每 个 分 区 会 分 别 由 函数 f 进行 变换 生成 对 应 的 一 
个 新 的 分 区 。 
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图 4-1 map 算 子 变换 过 程 
。 coalesce 一 一 重新 分 区 
V 算 子 函数 格式 : 


-coalesce (numPartitions: Int, shuffle: Boolean): JavaRDD [T] 


将 当前 RDD 进行 重新 分 区 ,生成 一 个 以 numPartitions 参数 指定 的 分 区 数 存 储 的 新 
RDD, BX shuffle 为 true 时 在 变换 过 程 中 进行 shuffle 操作 ,否则 不 进行 shuffle。 
V 示例 : 


coalesce 示例 代码 


1: scala»? val rdd=sc.parallelize(List(1,2,3,4,5,6,7,8),4)// 构 建 一 个 4 个 
分 区 的 RDD 

rdd: org. apache. spark. räd. RDD [Int] = ParallelCollectionRDD [5 ] at 
parallelize at <console>:12 
2: scala? rdd.partitions.length // ha rdd 的 分 区 数量 

res0: Int -4 
3: scala? rdd.glom.collect // 使 用 glom 变换 显示 raa 存放 在 4 个 分 区 中 的 数据 
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resi: Array [Array [Int]] = Array (Array (1, 2), Array (3, 4), Array (5, 6), 
Array (7, 8)) 
4: scala? val newRDD - rdd.coalesce(2, false) // 将 rda 变换 为 只 有 2 个 分 区 的 
新 RDD 

newRDD: org.apache.spark.rdd.RDD [Int] = CoalescedRDD[1]at coalesce at 
<console >:14 
5: scala? newRDD.partitions .length // 显示 newRdd 的 分 区 数 

res2: Int =2 
6: scala? newRDD.glom.collect // 使 用 glom 变换 显示 newRDD 存放 在 2 个 分 区 中 的 
数据 


res1: Array [Array [Int]] - Array (Array (1, 2, 3, 4), Array 5, 6, 7, 8)) 





示例 代码 的 变换 过 程 如 图 4-2 所 示 , 左 侧 RDD 为 4 个 分 区 ,经 过 变换 后 生成 右 侧 
为 2 个 分 区 的 新 的 RDD。 














coalesce(2, false) 
图 4-2 coalesce 算 子 变换 过 程 

* distinct 一 一 去 重 

V 算 子 函数 格式 : 

makeRDD 去 重 变换 有 两 个 形式 ,一 个 不 可 以 指定 分 区 数量 , 另 一 个 则 可 以 指定 分 
区 数量 。 

-distinct (): JavaRDD[T] 

返回 原 RDD 中 所 有 元 素 去 重 之 后 的 结果 , 即 原 RDD 中 每 个 元 素 在 新 生成 的 RDD 
中 只 出 现 一 次 。 

-distinct (numPartitions: Int): JavaRDD[T] 


返回 原 RDD 中 所 有 元 素 去 重 之 后 的 结果 , 即 原 RDD 中 每 个 元 素 在 新 生成 的 RDD 
中 只 出 现 一 次 , 且 新 RDD 的 分 区 数 等 于 numPartitions。 
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V 示例 : 


distinct 示例 代码 


1: scala? val rdd=sc.parallelize (List (1,1,1,1,2,2,2,3,3,4),2)// 生 成 由 数 
字 构 成 的 RDD 

rdd: org. apache. spark.rdd. RDD [Int] = ParallelCollectionRDD [4] at 
parallelize at <console >:12 
2: scala» rdd.distinct.collect // 显 示 rad 去 重 后 的 结 

res0: Array [Int] =Array (4,2,1,3) 





示例 代码 的 变换 过 程 如 图 4-3 所 示 , 左 侧 原 始 RDD 为 2 个 分 区 ,包含 很 多 数字 ,其 
中 有 若干 重复 数字 ,经 过 distinct 变换 后 , 原 RDD 中 的 每 个 数字 只 出 现 一 次 ,由 于 没有 
指定 分 区 数 ,因此 新 生成 RDD 的 分 区 数 与 原 RDD 相同 。 
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图 43 distinct 算 子 变换 过 程 
* 人 filter 一 一 过 滤 
V 算 子 函数 格式 : 
-filter(f: Function[T, Boolean]): JavaRDD[T] 
Jii RDD 中 的 所 有 元 素 ,通过 输入 参数 f 指定 的 过 滤 函 数 进行 判别 ,使 过 滤 函 数 返 
回 为 tue 的 所 有 元 素 构成 一 个 新 的 RDD, 
V 示例 : 





filter 示例 代码 


1: scala»? val rdd=sc.parallelize (0 to 9,2)// 生 成 由 数字 0 - 9 序列 构成 的 RDD 
rdd: org. apache. spark.rdd. RDD [Int] = ParallelCollectionRDD [6 ] at 

parallelize at <console >:12 

2: scala? val filteredRDD -rdd.filter( $ 2 ==0)// 从 raa 中 挑 出 能 被 2 整除 
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的 数 构成 新 RDD 


res0: Array [Int] -Array(0,2,4,6,8) 


示例 代码 的 变换 过 程 如 图 44 所 示 , 左 侧 原始 RDD 由 数字 0-9 的 序列 构成 ,指定 
的 过 滤 函 数 为 挑选 能 被 2 整除 的 数 ,从 而 构成 右 侧 新 的 RDD。 
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filter(_% 2==0) 
图 4-4 filter 算 子 变换 过 程 
。 flatMap 一 一 flatMap 变换 
V 算 子 函数 格式 : 


-flatMap[U] (f : FlatMapFunction[T, U]): JavaRDD[U] 


在 前 面 我 们 已 经 了 解 到 map 变换 是 对 原 RDD 中 的 每 个 元 素 进行 一 对 一 变换 生成 
新 RDD ,而 flatMap 不 同 的 地 方 在 于 , 它 是 对 原 RDD 中 的 每 个 元 素 用 指定 函数 f 进行 一 
对 多 ( 这 也 是 flat 前缀 的 由 来 ) 的 变换 ,然后 将 转换 后 的 结果 汇聚 生成 新 RDD, 

V 示例 : 


flatMap 示例 代码 


1: scala? val rdd=sc.parallelize (0 to 3,1) // 生 成 由 0 -3 序列 构成 的 RDD 
rdd: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [17]at 
parallelize at «console »:21 
2: scala? val flatMappedRDD = rdd.flatMap (x =>0 tox) // 使 用 flatMap 将 每 个 
原始 变换 为 一 个 序列 
flatMappedRDD: org.apache.spark.rdd.RDD [Int] = MapPartitionsRDD [18] 
at flatMap at «X console >:23 
3: scala? flatMappedRDD.collect// 显 示 新 的 RDD 
res0: Array[Int] -Array(0, 0,1,0,1,2,0,1,2,3) 


示例 代码 的 变换 过 程 如 图 4-5 所 示 , 左 侧 原始 RDD 由 数字 0-3 的 序列 构成 ， 
flatMap 指定 的 变换 函数 为 将 每 个 元 素 被 转化 为 0 到 自身 这 个 区 间 范 围 内 的 一 个 列表 ， 
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例如 2 变换 为 10,1,21 ,最 终 将 所 有 列表 合并 生成 右 侧 新 的 RDD。 
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flatMap(x=>0 to x) 
图 45 flatMap 算 子 变换 过 程 
。 pipe 一 一 调用 Shell 命令 
V 算 子 函数 格式 : 


- pipe (command: String): JavaRDD[String] 


在 Linux 操作 系统 中 ,提供 了 很 多 能 对 数据 进行 处 理 的 shell 命令。 为 了 利用 上 这 
些 命令 的 能 力 ,Spark 提供 了 pipe 变换 。 利 用 pipe 变换 ,可 以 对 原 RDD 的 每 个 分 区 执 
行 由 command 参数 指定 的 shell 命令 ,并 生成 新 的 RDD。 

V 示例 : 


pipe 示例 代码 


1: scala>val rdd=sc.parallelize (0 to7,4)// 生 成 由 0 -9 的 序列 构成 的 RDD, 存 
放 在 5 个 分 区 中 

rdd: org. apache. spark. rdd. RDD [Int] = ParallelCollectionRDD [18 ] at 
parallelize at <console>:12 
2: scala? rdd.glom.collect // 显示 每 个 分 区 的 数据 

res0: Array [Array [Int]] = Array (Array (0, 1), Array (2, 3), Array (4, 5), 
Array (6,7)) 
3: scala» rdd.pipe ("head -n 1").collect /提取 每 个 分 区 的 第 1 个 元 素 生 成 新 
的 RDD 

res1: Array [String] -Array (0, 2,4, 6) 


示例 代码 的 变换 过 程 如 图 4-6 所 示 , 左 侧 原始 RDD 由 数字 0 ~7 的 序列 构成 ,并 分 
为 4 个 分 区 存放 。 然 后 使 用 pipe 变换 调用 Linux 的 head 命令 ,提取 每 个 分 区 中 的 第 1 
个 元 素 构成 一 个 新 的 RDD。 


86 第 4 章 RDD 算 子 











eer ee pz 3 
MET RUE 
ELIT 4 pe 4 
| e lini m 
1 1 uai 
ia 1 
i3 —— J 
rico ios A pci 7 
4 1 I 
! 4 
=] 1 
i5 eee) J 
ey aco no pee al 
1 D cuc 
r1 1 
EI pola J 
Pipe(head -n 1) 


图 46 pipe 算 子 变 换 过 程 
* sample 一 一 抽样 
V 算 子 函数 格式 : 


- sample (withReplacement: Boolean, fraction: Double, seed: Long): JavaRDD 
[T] 


对 原始 RDD 中 的 元 素 进行 随机 抽样 ,抽样 后 产生 的 元 素 集合 构成 新 的 RDD。 参 
数 fraction 指定 新 集合 中 元 素 的 数量 占 原始 集合 的 比例 。 抽 样 时 的 随机 数 种 子 由 seed 
指定 。 参 数 withReplacement 为 false MY, 抽样 方式 为 不 放 回 抽样 。 参 数 
withReplacement Jy true 时 ,抽样 方式 为 放 回 抽样 。 

V 示例 : 





sample 示例 代码 


1: scala? val rdd=sc.parallelize (0 to 9,1)// 生 成 由 0 -9 的 序列 构成 的 RDD 
rdd: org. apache. spark.rdd. RDD [Int] = ParallelCollectionRDD [5 ] at 
parallelize at <console >:21 
2: scala>rdd.sample(false,0.5).collect // 不 放 回 抽样 一 半 比 例 的 元 素 生 成 新 
的 RDD 
res4: Array [Int] =Array (0,1,2,3,4,7) 
3: rdd.sample(false,0.5).collect // 再 次 不 放 回 抽样 一 半 比 例 的 元 素 生成 新 的 RDD 
res7: Array [Int] =Array (0,1,3,6,8) 
4: scala>rdd.sample(false,0.8).collect // 不 放 回 抽样 80% 比例 的 元 素 生 成 新 的 
RDD 
res8: Array [Int] =Array (0,1,2,5,6,8,9) 
5: scala>rdd.sample(true,0.5).collect // 放 回 抽样 一 半 比 例 的 元 素 生成 新 的 RDD 
res9: Array [Int] =Array (0,2,3,4,4,6,7,9) 





示例 代码 的 第 一 次 (第 2 行 ) 变 换 过 程 如 图 4-7(a) 所 示 , 左 侧 原始 RDD 由 数字 
0 ~9 的 序列 构成 ,然后 使 用 sample 变换 随机 提取 一 半数 量 的 元 素 构成 新 的 RDD, EL 
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用 不 放 回 抽样 的 形式 ,此 时 生成 的 结果 为 右 侧 6 个 元 素 构成 的 RDD。 而 在 之 后 的 代码 
中 我 们 还 试验 了 同样 条 件 再 次 随机 抽样 .比例 更 大 、 放 回 抽样 的 方式 ,可 以 看 到 其 结果 
各 有 不 同 ,如 图 4-7(b) 所 示 。 














web 一口 











sample(false, 0.5) sample(true, 0.5) 
(a) (b) 


图 4-7 sample 算 子 变换 过 程 
。 sortBy 一 一 排序 
V 算 子 函数 格式 : 


- sortBy [S] (£: Function [T, S], ascending: Boolean, numPartitions: Int): 
JavaRDD[T] 


对 原 RDD 中 的 元 素 按照 函数 f 指定 的 规则 进行 排序 ,并 可 使 用 参数 ascending 指 
定 按照 升序 或 者 降序 进行 排列 ,排序 后 的 结果 生成 新 的 RDD, 新 RDD 的 分 区 数量 可 以 
由 参数 numPartitions 指定 ,默认 采用 与 原 RDD 相同 的 分 区 数 。 

V 示例 : 


sortBy 示例 代码 


1: scala»? val rdd=sc.parallelize (List (2,1,4,3),1)// 生 成 原始 RDD 

rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[18 Jat 
parallelize at «console >:12 
2: scala» rdd.sortBy (x => x,true) .collect// 对 原始 RDD 中 的 元 素 进行 升序 排列 
后 的 结果 

res0: Array [Int] =Array (1, 2,3,4) 
3: scala? rdd.sortBy (x => x,false).collect // 对 原始 RDD 中 的 元 素 进 行 降序 排 
列 后 的 结果 

resi:  Array[Int]-Array(4,3,2,1) 
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示例 代码 的 第 1 次 变换 过 程 (第 2 行 ) 如 图 4-8 所 示 , 左 侧 原始 RDD 由 数字 2、1、 
4.3 构成 ,然后 使 用 sortBy 变换 使 用 元 素 的 值 进行 升序 排列 ,生成 的 新 RDD 由 右 侧 有 
序数 字 序 列 构成 。 在 示例 代码 的 第 3 行 我 们 还 试验 了 降序 排列 的 结果 。 








——— | 
[y 











sortBy(x=>x, true) sortBy(x=>x, false) 


图 4-8 sortBy 算 子 变换 过 程 
4.2.1.2 对 两 个 Value 型 RDD 进行 变换 


© cartesian 一 一 笛 卡 尔 积 
V 算 子 函数 格式 : 


-cartesian[U] (other: JavaRDDLike[U, _ ]): JavaPairRDD[T, U] 


输入 参数 为 男 一 个 RDD ,返回 两 个 RDD 中 所 有 元 素 的 笛 卡 尔 积 , 即 生成 由 当前 
RDD 的 所 有 元 素 与 输入 参数 RDD 的 所 有 元 素 两 两 组 合 构成 的 所 有 可 能 的 有 序 对 
集合 。 

V 示例 : 


cartesian 示例 代码 


1: scala» val rdd 1 -sc.parallelize (List ("a","b","c"),1) 

rdd 1: org.apache.spark.rdd.RDD [String] = ParallelCollectionRDD [0]at 
parallelize at «console »:12 
2: scala? val rdd 2 -sc.parallelize(List (1,2,3),1) 

rdd, 2: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [1]at 
parallelize at «console >:12 
3: scala? rdd 1.cartesian (rdd 2).collect 

res0: Array[(String, Int)] =Array((a,1), (a,2), (a,3), (b,1), (b,2), (b, 
3), (0,1), (c,2), (c,3)) 


示例 代码 的 第 1 次 变换 过 程 如 图 4-9 所 示 , 左 侧 上 面 的 原始 RDD 由 字母 A.B、C 
构成 ,下 面 的 输入 参数 RDD 由 数字 1.2 .3 构成 ,使 用 cartesian 变换 后 得 到 两 个 RDD 的 
所 有 元 素 构成 的 有 序 对 集合 。 
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cartesian 
图 4-9 cartesian 算 子 变换 过 程 


。 intersection 一 一 交集 


V 算 子 函数 格式 : 


-intersection (other: JavaRDD[T]): JavaRDD [T] 


输入 参数 为 另 一 个 RDD ,返回 两 个 RDD 中 所 有 元 素 的 交集 , 即 生成 由 同时 在 两 个 
RDD 中 存在 的 元 素 集合 构成 的 新 RDD ,同时 可 以 使 用 参数 numPartitions 指定 新 RDD 
的 分 区 数 。 

V 示例 : 


intersection 示例 代码 


1: scala? val rdd 1 -sc.parallelize(List (1,2,3,4),1)// 构 建 原始 RDD 
rdd 1: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [0]at 
parallelize at <console>:21 
2: scala» val rdd 2 -sc.parallelize(List (2,3,4,5),1) // 构 建 输入 参数 RDD 
rdd 2: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [1] at 
parallelize at «console >:21 
3: scala»? rdd l.intersection (rdd 2,1).collect // 求 两 个 RDD 的 交集 
res0: Array [Int] =Array (4, 3, 2) 


示例 代码 的 变换 过 程 如 图 4-10 所 示 , 左 侧 上 面 原始 RDD 由 数字 1.2.3.4 构成 ,下 
面 的 输入 参数 RDD 由 数字 2、3 ,4.5 构成 ,使 用 intersection 变换 后 得 到 两 个 RDD 的 共 
同 元 素 2.3 4 构成 的 新 RDD。 

* subtract 一 一 补 集 

V 算 子 函数 格式 : 


- subtract (other: JavaRDD[T], numPartitions: Int): JavaRDD[T] 
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intersection 
4-10 ”intersection 算 子 变换 过 程 


输入 参数 为 男 一 个 RDD ,返回 原始 RDD 与 输入 参数 RDD 的 补 集 , 即 生成 由 在 原 
始 RDD 中 而 不 在 输入 参数 RDD 中 的 元 素 集合 构成 的 新 RDD ,同时 可 以 使 用 参数 
numPartitions 指定 新 RDD 的 分 区 数 。 

V 示例 : 


subtract 示例 代码 


1: scala» val rdd 1 -sc.parallelize(0 to 5,1) 

rdd 1: org.apache.spark.rdd.RDD [Int] - ParallelCollectionRDD [18]at 
parallelize at «console >:12 
2: scala» val rdd 2 -sc.parallelize(0 to 2,1) 

rdd, 2: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [18]at 
parallelize at <console>:12 
3: scala»? rdd 1.subtract (rdd 2).collect 

res0: Array [Int] -Array (3, 4,5) 


示例 代码 的 变换 过 程 如 图 4-11 所 示 , 左 侧 上 面 原始 RDD 由 数字 0 ~5 构成 ,下 面 
的 输入 参数 RDD 由 数字 0 ~2 构成 ,使 用 subtract 变换 后 得 到 在 原始 RDD 中 而 不 在 输 
人 参数 RDD 中 的 元 素 3 ~5 构成 的 新 RDD, 














subtract 


图 4-11 subtract 算 子 变换 过 程 
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* union 一 一 并 集 
V 算 子 函数 格式 : 


-union (other: JavaRDD[T]): JavaRDD[T] 


输入 参数 为 另 一 个 RDD ,返回 原始 RDD 与 输入 参数 RDD 的 并 集 , 即 生成 原始 
RDD 和 输入 参数 RDD 中 的 所 有 元 素 构成 的 集合 ,如 果 两 个 RDD 中 有 重复 元 素 , 则 这 
些 元 素 会 多 次 出 现 。 如 果 需 要 去 除 重复 原始 ,可 以 对 新 生成 的 RDD 使 用 distinct 变换 。 
V 示例 : 


union 示例 代码 


1: scala? val rdd 1 -sc.parallelize(0 to 5,1)// 构 建 原始 RDD 

rdd 1: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [9 ] at 
parallelize at «console >:21 
2: scala» val rdd 2 - sc.parallelize(4 to 6,1) /人 构建 输入 参数 RDD 

rdd, 2: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [10]at 
parallelize at «console >:21 
3: scala»? rdd 1.union (rdd 2).collect /生成 两 个 RDD 的 并 集 

res7: Array [Int] =Array(0,1,2,3,4,5,4,5, 6) 
4: scala? rdd 1.union (rdd 2).distinct ().collect // 生成 两 个 RDD 的 并 集 并 
Ex 

res8: Array [Int] -Array(4,0,6,2,1,3,5) 


示例 代码 的 变换 过 程 如 图 4-12 所 示 , 左 侧 上 面 原始 RDD 由 数字 0 ~5 构成 ,下 面 
的 输入 参数 RDD 由 数字 4 ~ 6 构成 ,使 用 union 变换 后 得 到 由 两 个 RDD 中 的 全 部 元 素 
构成 的 新 RDD ,可 以 看 到 在 两 个 RDD 中 都 存在 的 数字 会 重复 出 现 。 在 第 4 行 代码 中 
我 们 使 用 distinet 去 重 变换 , 则 可 以 看 到 结果 中 不 再 有 重复 元 素 。 























union 


图 4-12 union 算 子 变换 过 程 
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* zip 一 一 联结 
V 算 子 函数 格式 : 


- zip [U] (other: JavaRDDLike [U, _]): JavaPairRDD[T, U] 


输入 参数 为 男 一 个 RDD ,zip 变换 生成 由 原始 RDD 的 值 为 Key、 输 入 参数 RDD 的 
值 为 Value 依次 配对 构成 的 所 有 Key/ Value 对 ,并 返回 这 些 Key/ Value 对 集合 构成 的 
新 RDD。 

V 示例 : 


zip 示例 代码 


1: scala? val rdd 1 -sc.parallelize(0 to 4,1) 人 构建 原始 RDD 

rdd 1: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [19]at 
parallelize at «console >:21 
2: scala» val rdd 2 - sc.parallelize(5 to 9,1) 人 构建 输入 参数 RDD 

rdd 2: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [20]at 
parallelize at «console >:21 


3: scala»? rdd 1.zip (rdd 2).collect // 对 两 个 RDD 进行 联结 
res5: Array [(Int, Int)] =Array((0,5), (1,6), (2,7), (3,8), (4,9)) 


示例 代码 的 变换 过 程 如 图 4-13 所 示 , 左 侧 上 面 原始 RDD 由 数字 0 ~4 构成 ,下 面 
的 输入 参数 RDD 由 数字 5 ~9 构成 ,使 用 zip 变换 后 得 到 由 两 个 RDD 中 的 元 素 依次 配 
对 构成 的 Key/ Value 对 形成 的 新 RDD, 








zip 


图 4-13 zip 算 子 变 换 过 程 
4.2.2 对 Key/ Value 型 RDD 进行 变换 


对 Key/ Value 型 RDD 进行 变换 ,可 以 通过 org. apache. spark. api. java. 
JavaPairRDD 类 下 的 接口 函数 进行 操作 ,本 节 我 们 对 其 中 的 一 些 主要 函数 进行 带 有 实 
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例 的 介绍 。 更 多 其 他 函数 可 以 访问 : https:// spark. apache. org/ docs/ latest/ api/ 
scala/ index. html#org. apache. spark. api. java. JavaPairRDD 。 


4.2.2.1 创建 Key/ Value 型 RDD 


在 处 理 Key/ Value 型 RDD 之 前 ,我 们 需要 先 创建 这 种 类 型 的 数据 。 创 建 Key/ 
Value 型 RDD 的 方法 有 很 多 ,其 基本 思路 都 是 构建 由 Key 和 Value 构成 的 数据 对 ,然后 
使 用 RDD 变换 函数 创建 对 应 的 RDD ,这 里 我 们 用 已 经 介绍 过 的 简单 易 理 解 的 map 变 
换 和 新 的 keyBy 变换 两 种 方式 创建 Key/ Value 型 的 RDD。 

e 使 用 map 创建 Key/ Value 型 RDD 


使 用 map 创建 Key /Value 型 RDD 示例 代码 


1: scala > val words = sc.parallelize (List ("apple","banana ","berry", 
"cherry","cumquat", "haw"),1)// 构 建 原始 RDD 

words: org.apache.spark.rdd.RDD [String] = ParallelCollectionRDD [0]at 
parallelize at <console>:21 
2: scala» words.collect // lil RDD 

res0: Array [String] - Array (apple, banana, berry, cherry, cumquat, haw) 
3: scala? val pairs -words.map(x =>(x(0),x)) // 使 用 map 变换 生成 Key /Value 
型 RDD 

pairs: org.apache.spark.rdd.RDD[(Char, String)] =MapPartitionsRDD [1] 
at map at «console >:23 
4: scala>pairs.collect // 显 示 生 成 的 Key /Value 型 RDD 

resi:  Array[(Char, String)] -Array ((a,apple), (b,banana), (b,berry), 
(c,cherry), (c,cumquat), (h,haw)) 


示例 代码 的 变换 过 程 如 图 4-14 所 示 , 其 中 原始 RDD 中 的 元 素 为 长 度 不 等 的 单词 ， 
map 变换 中 将 每 个 单词 的 第 一 个 字母 作为 Key 值 ,然后 与 对 应 单词 一 起 构成 键 值 对 形 
成 新 的 Key/ Value 型 RDD。 





FR 1 
<a,apple> | 
<b, banana» | 
<b, berry> | 
<c, cherry> ! 
<c, cumquat> | 
<h,haw> | 








map(x=>(x(0), x)) 


图 4-14 使 用 map 创建 Key/ Value 型 RDD 
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* 使 用 keyBy 创建 Key/ Value 型 RDD 


使 用 keyBy 创建 Key /Value 型 RDD 示例 代码 


1: scala > val words = sc.parallelize (List ("apple ","banana ","berry ", 
"cherry","cumquat ","haw"),1) // 构建 原始 RDD 

words: org.apache.spark.rdd.RDD [String] - ParallelCollectionRDD [13] 
at parallelize at «console »:12 
2: scala»? words.collect /人 /显示 原始 RDD 

res0 : Array [String] - Array (apple, banana, berry, cherry, cumquat, haw) 
3: scala? val pairs -words.keyBy( .length) // 使 用 keyBy 变换 生成 Key/Value 
型 RDD 

pairs: org.apache. spark.rdd.RDD [(Int, String)] = MappedRDD [14]at 
keyBy at <console >:14 
4: scala? pairs.collect // 显 示 生 成 的 Key / Value 型 RDD 

resi:  Array[(Int, String)] -Array ((5,apple), (6,banana), (5,berry), 
(6,cherry), (7,cumquat), G,haw)) 


keyBy 变换 (keyBy[U](f: Function[ T, U]) : JavaPairRDD[ U, T] ) 的 输入 参数 为 
构建 Key 的 函数 ,此 函数 将 作用 于 原 RDD 中 的 每 个 元 素 , 然后 与 对 应 元 素 的 原始 值 共 
同 构成 键 值 对 ,这 些 键 值 对 集合 构成 新 的 Key/ Value 型 RDD。 示 例 代 码 的 变换 过 程 如 
图 4-15 所 示 , 其 中 原始 RDD 中 的 元 素 为 长 度 不 等 的 单词 ,keyBy 变换 中 传递 的 函数 为 
将 每 个 单词 的 长 度 作 为 Key 值 ,然后 与 对 应 单词 一 起 构成 键 值 对 形成 新 的 Key/ Value 
型 RDD, 








3 Toe rug 
1 apple i <5, apple> i 
| banana | <6, banana? | 
| berry | <5, berry> | 
| cherry | <6, cherry> l 
| cumquat | <7, cumquat> | 
| haw 1 <3, haw> | 








keyBy(_.legth) 


4-15 ”使 用 keyBy 创建 Key/ Value 型 RDD 


4.2.2.2 对 单个 Key-Value 型 RDD 进行 变换 
* combineByKey 一 一 按 Key 聚合 
V 算 子 函数 格式 : 


- combineByKey [C] (createCombiner: Function [V, C], mergeValue: Function2 
[C, V, C], mergeCombiners: Function2 [C, C, C]): JavaPairRDD[K, C] 
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将 Key/ Value 型 的 RDD 按 Key 进行 聚合 (Combine) 计 算 , 该 变换 的 计算 过 程 是 将 
RDD 中 的 < Key, Value > 对 依次 输入 该 变换 ,然后 使 用 输入 参数 中 的 3 个 函数 进行 如 
下 计算 。 
> createCombiner: 在 遍历 RDD 的 一 个 分 区 时 ,对 于 依次 处 理 的 每 个 < Key, Value > 
对 ,如 果 Key 是 第 一 次 出 现 , 则 触发 执行 createCombiner 函数 ,将 < Key, Value > 
中 的 Value 转换 由 函数 指定 的 数据 类 型 C。 

> mergeValue; 对 于 依次 处 理 的 每 个 < Key, value > 对 ,如 果 Key 不 是 第 一 次 出 
现 , 则 触发 执行 mergeValue 函数 ,将 前 一 次 计算 获得 的 CC 可 能 是 第 一 次 Key 到 
达 时 由 ereateCombiner 函数 生成 ,也 可 能 是 后 续 Key 到 达 时 由 mergeValue 函数 
生成 ) 与 当前 到 达 的 < Key, value > 对 中 的 Value 用 mergeValue 函数 计算 ,得 到 
新 的 Co 

> mergeCombiners: 我 们 都 知道 , Spark 是 一 个 分 布 式 计算 环境 ,在 执行 聚合 变换 
时 ,RDD 可 能 分 布 在 不 同 的 计算 节点 进行 变换 。 因 此 ,要 获得 整体 数据 的 聚合 
结果 ,最 后 还 需要 将 分 散 的 相同 Key 值 的 数据 汇集 到 一 起 运算 , 这 就 是 
mergeCombiners 的 作用 。 在 前 面 两 个 函数 计算 获得 的 所 有 的 C ,都 要 经 过 
mergeCombiners 汇聚 成 最 终结 果 的 C。 

V 示例 : 


combineByKey 示例 代码 


1: scala > val pair = sc.parallelize (List (("fruit ","Apple"), ("fruit", 
"Banana"), ("vegetable "," Cucumber"), ("fruit "," Cherry "), ("vegetable ", 
"Bean"), ("vegetable","Pepper")),2) 人 /生成 原始 RDD 
pair: org. apache. spark. rdd. RDD [(String, String)] - Parallel 

CollectionRDD[10]at parallelize at <console>:12 
2: scala? val combinedPair -pair.combineByKey (List ( ), (x:List [String], 

y:String) =>y :: x, (x:List [String], y:List [String]) => x ::: y) // HE 
ConbineByKey 变换 

combinedPair: org.apache.spark.rdd.RDD [(String, List [String])] = 
Shu£fledRDD[1]at combineByKey at <console>:14 
3: scala? combinedPair.collect // 输 出 变换 结果 

res0: Array [(String, List [String])] = Array ((fruit, List (Cherry, 
Banana, Apple)), (vegetable,List (Pepper, Cucumber, Bean))) 


示例 代码 中 ,输入 RDD 为 Key/ Value 型 的 RDD, Key 为 物品 的 类 型 名 称 ,例如 水 
AR (fruit) 或 蔬菜 ( vegetable ) , Value 为 具体 的 物品 名 称 ,例如 苹果 (Apple ) sk dr f£ 
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(Banana) 。 示 例 代码 的 功能 是 将 属于 同一 类 的 物品 汇聚 到 一 起 形成 一 个 List。 其 关键 
在 于 第 2 行 代码 中 指定 的 3 个 函数 : 

=- 指定 的 createCombiner 函数 为 List(_) ,其 作用 是 在 某 类 物品 的 第 一 个 物品 出 现 
时 ,将 该 物品 的 名 称 放 入 一 个 List 中 ,例如 < fruit, Apple > 到 达 时 会 生成 List( Apple) 。 

一 指定 的 mergeValue 函数 为 (x:List[ String], y:String) = > y :: x, 其 作用 是 将 不 
是 第 一 次 出 现 的 类 型 的 物品 名 称 , 放 人 已 生成 的 List 中 ,例如 < fruit, Banana > 到 达 时 
会 生成 List( Apple, Banana) 。 

一 指定 的 mergeCombiners 函数 为 (x:List[ String], y:List[ String]) = > x ::: y, 其 
作用 是 将 前 两 个 函数 生成 的 某 物 品类 别 的 所 有 列表 合并 为 一 个 列表 。 








1 <fruit, Apple> 

| «vegetable, Cucumber> 
L.-SfritBaname — ; 
[oo <fruit, Chemy- ^j 
1 «vegetable, Bean 

1 











combineByKey 
图 4-16 combineByKey 算 子 变换 过 程 
* flatMapValues 一 一 对 所 有 Value 进行 flatMap 
V 算 子 函数 格式 : 


- flatMapValues [U] (£: Function[V, Iterable[U]]): JavaPairRDD[K, U] 


对 Key/ value 型 RDD 中 的 所 有 Value 值 进行 flatMap 操作 。 
V 示例 : 


flatMapValues 示例 代码 


1: scala» val rdd=sc.parallelize (List ("a","boy"),1).keyBy ( .length) 
rdd: org.apache.spark.rdd.RDD[(Int, String)] =MappedRDD [1 Jat keyBy at 
<console>:12 
2: scala? rdd.collect 
res0: Array[(Int, String)]- Array((1,a), (3,boy)) 
3: scala»? rdd.flatMapValues (X=> "*"ex-"*").collect 
res1: Array[(Int, Char)] -Array ((, *), (1,a), (1, *), G,*), (3,b), (3, 
o), G,y), G, *)) 
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keyBy( .length) flatMapValues(x=>"*"+x+"*") 
[84-17 flatMapValues 算 子 变换 过 程 


* groupByKey 一 一 按 Key 汇聚 
V 算 子 函数 格式 : 


- groupByKey () : JavaPairRDD[K, Iterable[V]] 


将 Key/ Value 型 RDD 中 的 元 素 按 Key 值 进行 汇聚 ,Key 值 相同 的 Value 值 合并 在 
一 个 序列 中 ,所 有 Key 值 的 序列 构成 新 的 RDD。 需 要 注意 的 是 ,groupByKey 变换 对 每 
个 分 区 进行 操作 后 的 输出 不 会 进行 合并 ,因此 整个 变换 的 开销 是 非常 大 的 ,应 该 尽量 
避免 使 用 ,尽量 使 用 可 以 完成 类 似 运算 的 aggregateByKey 或 reduceByKey。 groupByKey 
变换 还 有 两 个 变型 ,分 别 为 可 以 指定 分 区 数量 的 groupByKey ( numPartitions; Int) 和 可 
以 指定 分 区 类 的 groupByKey( partitioner: Partitioner) 。 

V 示例 : 


groupByKey 示例 代码 


1: scala? val pairs -sc.parallelize(List(("fruit","Apple"), 
("vegetable","Cucumber") ("fruit","Cherry"), ("vegetable","Bean"), 
("£ruit","Banana"), ("vegetable","Pepper")),2) /生成 原始 RDD 

pairs: org.apache.spark.rdd.RDD[(String, String)] - Parallel 
CollectionRDD[5]at parallelize at «console >:12 
2: scala»? pairs.groupByKey.collect // 进行 groupByKey 变换 

res0: Array [(String, Iterable [String])] = Array ((fruit,CompactBuffer 
(Apple, Banana, Cherry )), (vegetable, CompactBuffer (bean, cucumber, 
pepper))) 


在 示例 代码 中 ,输入 RDD 为 Key/ Value 格式 的 RDD, Key 为 物品 的 类 型 名 称 , 例 
如 水 果 (fruit) 或 蔬菜 (vegetable) , Value 为 具体 的 物品 名 称 , 例 如 苹果 (Apple ) 或 香花 
(Banana) 。 通 过 groupByKey 变换 将 类 型 相同 的 物品 名 称 合并 为 一 个 List; 
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«vegetable, Pepper 1 











groupByKey 
图 4-18  groupByKey 算 子 变换 过 程 


e keys 一 一 提取 Key 
V 算 子 函数 格式 : 


- keys () : JavaRDD [K] 


将 Key/ Value 型 RDD 中 的 元 素 的 Key 提取 出 来 ,所 有 Key 值 构成 一 个 序列 形成 
新 的 RDD。 
V 示例: 


keys 示例 代码 


1: scala > val pairs = sc.parallelize (List ("apple","banana ","berry", 
"cherry","cumquat","haw"),1).keyBy ( .length) /人 /构建 原始 RDD 

pairs: org.apache.spark.rdd.RDD[(Int, String)] =MappedRDD[16 Jat keyBy 
at <console >:12 
2: scala>pairs.keys.collect // 提 取 单 词 长 度 

res0: Array [Int] =Array (5, 6,5,6,7,3) 


示例 代码 中 ,先生 成 一 个 由 单词 长 度 与 单词 构成 的 Key/ Value 型 RDD ,然后 使 用 
Keys 变换 得 到 所 有 单词 的 长 度 。 





<3, haw> 


keyBy( .length) keys 








图 4-19 keys 算 子 变换 过 程 
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* mapValues 一 一 对 Value 值 进行 变换 
V 算 子 函数 格式 : 


-mapValues [U] (f: Function[V, U]): JavaPairRDD[K, U] 


将 Key/ Value 型 RDD 中 的 每 个 元 素 的 Value 值 ,使 用 输入 参数 函数 了 进行 变换 ， 
生成 新 的 RDD。 
V 示例 : 


mapValues 示例 代码 


1: scala > val pairs = sc.parallelize (List ("apple","banana","berry", 
"cherry","cumquat", "haw"),1).keyBy (_.length) /构建 原始 RDD 

pairs: org.apache.spark.rdd.RDD[(Int, String)] -MappedRDD[16]at keyBy 
at «console >:12 
2: scala? pairs.mapValues (v =>v +" "«v(0)).collect /生成 将 单词 加 单词 首 字 
母 的 RDD 

res0: Array [(Int, String)] = Array ((5,apple a), (6,banana b), (5,berry 
b), (6,cherry c), (7,cumquat c), (3,haw h)) 


示例 代码 的 变换 过 程 如 图 4-20 所 示 , 其 原始 RDD 为 单词 长 度 与 单词 构成 的 Key/ 
Value 型 RDD。 第 2 行 代码 中 指定 的 变换 函数 v= > v+" "+v(0) 是 取出 Value fH 


〈 即 单词 ) 及 每 个 Value 值 第 一 个 元 素 ( 即 首 字母 ) ,中 间 用 空格 连接 , 然后 生成 新 
的 RDD。 


F T 
<5, apple» 
<6, banana» 


<5, apple a> 
<6, banana b> 


<6, cherry> 
cumquat | <7, cumquat> 
haw <3, haw> 


<6, cherry c» 
<7, cumquat c> 


i 1 
| 1 
i 1 
1 <5, berry> | <5, berry b> 
D i 
1 1 
i i 
1 








keyBy(_.length) mapValues 

图 4-20 mapValues 算 子 变换 过 程 
。 partitionBy 一 一 按 Key 值 重新 分 区 
V 算 子 函数 格式 : 


-partitionBy (partitioner: Partitioner): JavaPairRDD[K, V] 


将 Key/ Value 型 RDD 中 的 元 素 按照 输入 参数 partitionBy 指定 的 分 区 规则 进行 重 
新 分 区 ,生成 新 的 RDD。 
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V 示例 : 


partitionBy 示例 代码 


1: scala? val pairs -sc.parallelize(0 to 9,2).keyBy (x => x) // 构 建 原始 RDD 

pairs: org.apache.spark.rdd.RDD[(Int, Int)] -MappedRDD[20]at keyBy at 
<console>:12 
2: scala>pairs.glom.collect // 显 示 原 始 RDD 的 分 区 情况 

res0: Array [Array [ (Int, Int)]] - Array (Array ((0,0), (1,1), (2,2), (3,3), 
(4,4)), Array((5,5), (6,6), (7,7), (8,8), (9,9))) 
3: scala? import org.apache.spark.HashPartitioner // 导入 HashPartitioner 
类 库 

import org.apache.spark.HashPartitioner 
4: scala? val partitionedPairs = pairs.partitionBy (new HashPartitioner 
(2)) /按照 Key 的 Hash 值 进 行 重新 分 区 

partitionedPairs: org.apache.spark.rdd.RDD [(Int，Int)] = ShuffledRDD 
[21]at partitionBy at <console>:15 
5: scala»? partitionedPairs.glom.collect // 显 示 重 新 分 区 后 的 结果 

resl: Array [Array [(Int, Int)]] = Array (Array ((0,0), (2,2), (4,4), (6, 
6), (8,8)), Array ((1,1), QG,3), 6,5), 0,7),(9,9))) 


示例 代码 的 变换 过 程 如 图 4-21 所 示 , 其 原始 RDD 是 由 数字 0 ~9 构成 的 Key/ 
Value 型 RDD, Key 与 Value 为 相同 的 数字 , 并 且 分 为 两 个 分 区 存放 。 然 后 使 用 
partitionBy 变换 对 这 个 RDD 进行 重新 分 区 ,分 区 的 规则 是 计算 每 个 元 素 Key 的 Hash 
值 ,Hash 值 相 同 的 元 素 会 放 到 同一 个 分 区 中 , 且 仍然 分 为 两 个 分 区 , 最终 构成 新 
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keyBy(x=>x) __ partitionBy(new HashPartitioner(2)) 
[84-21 partitionBy 算 子 变换 过 程 
* reduceByKey j£ Key 值 进行 Reduce 操作 


V 算 子 函数 格式 : 


- reduceByKey (func: Function2 [V, V, V]): JavaPairRDD[K, V] 
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将 Key/ Value 型 RDD 中 的 元 素 按 Key 值 进行 Reduce 操作 , Key 值 相同 的 Value 


值 按照 参数 func 的 逻辑 进行 归并 ,然后 生成 新 的 RDD。 需 要 注意 的 是 ,reduceByKey 变 
换 还 有 两 个 变型 ,分 别 为 可 以 指定 分 区 数量 的 reduceByKey( (fune; Function2[ V, V, 
V]) , numPartitions ; Int) 和 可 以 指定 分 区 类 的 reduceByKey ( partitioner: Partitioner , 
func; Function2| V, V, V]). 


V 示例 : 


reduceByKey 示例 代码 


1: scala > val fruits = sc.parallelize (List ("apple","banana","berry", 
"cherry","cumquat", "haw"),1).keyBy ( .length) 

fruits: org.apache.spark.rdd.RDD [(Int, String)] - MapPartitionsRDD 
[15]at keyBy at « console »:22 
2: scala? fruits.reduceByKey( +" "+ _).collect 

res6: Array [(Int, String)] - Array ((6, banana cherry), (7,cumquat), (3, 
haw), (5,apple berry)) 


示例 代码 的 变换 过 程 如 图 4-22 Brom. fü A RDD 为 以 单词 长 度 为 Key, 单 词 为 


Value 的 Key/ Value 型 RDD。reduceByKey 变换 中 指定 的 函数 为 将 长 度 相 同 的 单词 用 
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keyBy( length) reduceByKey(_+""+_) 
图 4-22. reduceByKey 算 子 变换 过 程 
按 Key 值 排序 





* sortByKey 
V 算 子 函数 格式 : 


- SortBYKey (ascending: Boolean, numPartitions: Int): JavaPairRDD[K, V] 


对 原 RDD 中 的 元 素 按照 Key 值 进行 排序 ,并 可 使 用 参数 ascending 指定 按照 升序 


或 者 降序 进行 排列 ,排序 后 的 结果 生成 新 的 RDD, 新 RDD 的 分 区 数量 可 以 由 参数 
numPartitions 指定 ,默认 采用 与 原 RDD 相同 的 分 区 数 。 
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V 示例 : 


sortByKey 示例 代码 


1: scala>val words =sc.parallelize(List ("apple","banana","cat","door"), 
1).keyBy (_.length)// 构 建 原始 RDD 

words: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [18]at 
parallelize at «console >:12 
2: scala» words.sortByKey (true).collect // 按 单词 长 度 排序 

res0: Array [(Int, String)] = Array ((3,cat), (4,door), (5,apple), (6, 
banana)) 


示例 代码 的 变换 过 程 如 图 4-23 所 示 , 输 入 RDD 为 单词 长 度 ( Key ) 和 单词 ( Value) 
构成 的 Key/ Value 型 RDD, {EJH sortByKey 变换 ,对 Key 值 进行 升序 排序 ,即将 各 个 元 
素 按 单词 长 度 进行 升序 的 排列 ,生成 新 的 RDD, 
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图 4-23 sortByKey 算 子 变换 过 程 
* values 


V 算 子 函数 格式 : 


-values () : JavaRDD [V] 


对 Key/ Value 型 的 RDD 进行 取 值 操作 ,即将 RDD 转化 为 只 有 元 素 的 Value 值 构 
成 的 新 RDD。 
V 示例 : 


values 示例 代码 


1: scala>val words -sc.parallelize (List ("apple","banana","cat","door"), 
1).keyBy (..length) 人/ 构建 原始 RDD 
words: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[18 Jat 
parallelize at «console >:12 
2: scala? words.values.collect // Mit Value ffi 
res0: Array [String] - Array (apple, banana, cat, door) 
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示例 代码 的 变换 过 程 如 图 4-24 所 示 ,输入 RDD 为 单词 长 度 ( Key) 和 单词 ( Value) 
构成 的 Key/ Value 型 的 RDD。 对 其 使 用 values 变换 ,取出 了 原 RDD 中 所 有 Value fi, 
即 单词 ,生成 新 的 RDD。 
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图 4-24 values 算 子 变换 过 程 


4.2.2.3 对 两 个 Key-Value 型 RDD 进行 变换 


。 cogroup 一 一 按 Key (ARG 
V 算 子 函数 格式 : 


- cogroup [W] (other: JavaPairRDD [K, W], numPartitions: Int): JavaPairRDD 
[K, (Iterable[V], Iterable[W])] 


对 于 任何 一 个 在 Key/ Value 型 的 原始 RDD 或 在 Key/ Value 型 的 输入 RDD( 输 入 
参数 other) 中 存在 的 Key ,cogroup 变换 会 寻找 在 两 个 RDD 中 相同 Key 值 的 元 素 ,将 所 
有 这 些 元 素 的 Value 聚合 构成 一 个 序列 ,然后 与 Key 值 生 成 新 的 RDD。 与 后 面 会 讲解 
的 join 变换 不 同 之 处 在 于 ,在 新 RDD 中 出 现 的 Key 值 并 不 要 求 在 两 个 RDD 中 都 存在 。 

V 示例 : 


cogroup 示例 代码 


1: scala»? val pairl =sc.parallelize (List ((1,"a"),(2,"b"),(3,"c")),2) // 构 
建 原始 RDD 

pairl: org.apache.spark.rdd.RDD[(Int, String)] =ParallelCollection 
RDD[0]at parallelize at <console>:21 
2: scala? val pair2 -sc.parallelize (List ((1,"apple"), (2, "banana")),2) // 
构建 输入 参数 RDD 

pair2: org.apache.spark.rdd.RDD [(Int，String)] = ParallelCollection 
RDD[1]at parallelize at «console >:21 
3: scala? val cogrouped =pairl .cogroup (pair2,1).collect // fk Key 值 进行 
联结 

cogrouped: Array [(Int, (Iterable [String], Iterable [String]))] = Array 
((1, (CompactBuffer (a), CompactBuffer 

(apple))), G, (CompactBuffer (c),CompactBuffer ())), (2, (CompactBuffer 
(b), Compact Buf fer (banana)))) 
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示例 代码 的 变换 过 程 如 图 4-25 所 示 , 原 始 RDD 为 序号 为 Key, FH Value 的 
Key/ Value 型 RDD ,输入 参数 RDD 为 序号 为 Key .单词 为 Value 的 Key/ Value 型 RDD, 
经 过 cogroup 变换 后 ,所 有 出 现 过 的 序号 ,以 及 相应 的 字母 和 单词 汇聚 在 一 起 构成 列 
表 , 从 而 得 到 新 的 RDD。 我 们 可 以 看 到 ,虽然 序号 为 3、 字 母 为 c 的 元 素 只 在 原始 RDD 
中 出 现 了 ,也 仍 会 汇聚 出 一 个 没有 单词 的 元 素 在 新 RDD 中 出 现 。 





<1, (aapple)> 
«3. (c) 
<2, (b banana) 













cogroup 


图 4-25 cogroup 算 子 变换 过 程 


* join 一 一 按 Key 值 联结 
V 算 子 函数 格式 : 


- join[W] (other: JavaPairRDD[K, W]): JavaPairRDD[K, (V, W)] 


对 于 在 Key/ Value 型 的 原始 RDD 和 在 Key/ Value 型 的 输入 RDD (输入 参数 
other) 中 同时 存在 的 Key ,join 变换 会 寻找 在 两 个 RDD 中 相同 Key 值 的 元 素 ,将 所 有 这 
些 元 素 的 Value 联结 构成 一 个 序列 ,然后 与 Key 值 生成 新 的 RDD, 与 前 面 讲解 的 
cogroup 变换 不 同 之 处 在 于 ,在 新 RDD 中 出 现 的 Key 值 要 求 在 两 个 RDD 中 都 存在 。 

V 示例 : 


join 示例 代码 


1: scala>val pairl =sc.parallelize (List ((1,"a"),(2,"b"),(3,"c")),2) // 构 
建 原始 RDD 

pairl: org.apache.spark.rdd.RDD [(Int, String)] = ParallelCollection 
RDD[0]at parallelize at «console >:21 
2: scala? val pair2 =sc.parallelize (List ((1,"apple"),(2,"banana")),2) // 构 
建 输入 参数 RDD 

pair2: org.apache.spark.rdd.RDD [(Int, String)] = ParallelCollection 
RDD[1]at parallelize at « console >:21 
3: scala»? pairl.join(pair2,1).collect //}% Key 值 进行 联结 

res0: Array [(Int, (String, String))] = Array ((2, (b, banana)), (1, (a, 
apple))) 
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示例 代码 的 变换 过 程 如 图 4-26 Bron, 原始 RDD 为 序号 为 Key, 字母 为 Value 的 
Key/ Value 型 RDD ,输入 参数 RDD 为 序号 为 Key .单词 为 Value 的 Key/ Value 型 RDD, 
经 过 join 变换 后 ,在 两 个 RDD 中 都 出 现 过 的 序号 ,以 及 相应 的 字母 和 单词 汇聚 在 一 起 
构成 列表 ,从 而 得 到 新 的 RDD。 我 们 可 以 看 到 ,序号 为 3、 字 母 为 c 的 元 素 由 于 在 输入 
参数 RDD 中 没有 出 现 过 ,因此 不 会 出 现在 新 RDD 中 。 












<1, (aapple)> 
<2, (b banana)> 








join 


图 4-26 join 算 子 变换 过 程 
* leftOuterJoin 一 一 按 Key 值 进行 左 外 联结 
V 算 子 函数 格式 : 


-leftOuterJoin[W](other: JavaPairRDD[K, W]): JavaPairRDD[K, (V, Optional 
[w])] 


对 两 个 RDD 进行 左 连接 。 
V 示例 : 


leftOuterJoin 示例 代码 


1: scala? val a = sc.parallelize (List ("a","boy","cafe"),1).keyBy (_. 
length) 

a: org.apache.spark.rdd.RDD [(Int, String)] =MappedRDD [3]at keyBy at 
<console>:12 
2: scala>a.collect 

res0: Array [ (Int, String)] =Array((1,a), (3,boy), (4,cafe)) 
3: scala? val b - sc.parallelize (List ("dog","enjoy","fate"),1).keyBy ( . 
length) 

b: org.apache.spark.rdd.RDD [(Int, String)] = MappedRDD [5]at keyBy at 
<console>:12 
4: scala>b.collect 

resl: Array [(Int, String)] =Array (G,dog), (5,enjoy), (4,fate)) 
5: scala? a.leftOuterJoin (b).collect 

res2: Array [(Int, (String, Option [String]))] - Array ((4, (cafe, Some 
(fate))), (1,(a,None)), (3, (boy,Some (dog)))) 
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。 rightOuterJoin 一 一 按 Key 值 进行 右 外 联结 
V 算 子 函数 格式 : 


-rightOuterJoin [W] (other: JavaPairRDD [K, W]): JavaPairRDD[K, (Optional 
[V], W)] 


对 两 个 RDD 进行 右 连接 。 
V 示例 : 


rightOuterJoin 示例 代码 


1: scala? val a = sc.parallelize (List ("a","boy","cafe"),1).keyBy (_. 
length) 

a: org.apache.spark.rdd.RDD[(Int, String)] = MappedRDD [3 ] at keyBy at 
<console>:12 
2: scala>a.collect 

res0: Array [(Int, String)] -Array ((1,a), (3,boy), (4,cafe)) 
3: scala? valb-sc.parallelize (List ("dog","enjoy","fate"),1).keyBy ( . 
length) 

b: org.apache.spark.rdd.RDD[(Int, String)] = MappedRDD [5]at keyBy at 
<console>:12 
4: scala>b.collect 

resl: Array[(Int, String)] -Array (G,dog), (5,enjoy), (4,fate)) 
5: scala>a.rightOuterJoin (b).collect 

res2: Array [(Int, (Option [String], String))] - Array ((4, (Some (cafe), 
fate)), (3, (Some (boy) ,dog)), (5, (None,enjoy))) 


* subtractByKey—— —i£ Key 值 求 补 
V 算 子 函数 格式 : 


- subtractByKey [W] (other: RDD[(K, W)]) 


对 于 只 在 Key/ Value 型 的 原始 RDD 中 出 现 ,而 不 在 Key/ Value 型 的 输入 RDD 
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4-28 


(输入 参数 other) 中 出 现 的 Key fü , 
新 的 RDD。 
V 示例 : 


subtractByKey 示例 代码 


1: 





rightOuterJoin 
rightOuterJoin 算 子 变换 过 程 


将 所 有 这 些 Key 值 对 应 的 Key/ Value 对 元 素 ,生成 


Scala? val words -sc.parallelize (List ("apple","banana","cat","door"), 


1).keyBy (..length) // 构 建 原始 RDD 
words: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [18]at 
parallelize at «console >:12 


2: 
length) 人/ 构建 输入 参数 RDD 


Scala > val others = sc. 


parallelize (List ("boy","girl"),1).keyBy (_. 


others: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [18] at 
parallelize at «console >:12 


3: 


scala? words.subtractByKey (others).collect // 按 Key 值 求 补 


res0: Array[(Int, String)] -Array ((5,apple), (6,banana)) 


示例 代码 的 变换 过 程 如 图 4-29 所 示 ,原始 RDD 和 输入 参数 RDD 均 为 单词 字母 数 
为 Key .单词 为 Value 的 Key/ Value 型 RDD。 经 过 subtractByKey 变换 后 ,生成 的 RDD 
中 只 包含 Key 值 仅 出 现在 原始 RDD 中 (Key 值 5 和 6) 的 Key/ Value 对 。 
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4.3 行动 算 子 


在 前 面 介绍 Spark 原理 时 ,我 们 已 经 了 解 到 Spark 中 的 “惰性 执行 "机 制 ,也 就 是 
Spark 中 的 变换 算 子 并 不 是 在 运行 到 相应 语句 时 就 会 立即 执行 ,而 是 在 遇 到 本 节 将 要 
介绍 的 行动 (Action ) 算 子 语句 时 , 才 会 真正 触发 Spark. 的 任务 调度 开始 进行 计算 ,这 也 
是 为 什么 这 类 算 子 被 称 为 “行动 " 算 子 的 原因 。 在 Spark 中 ,行动 算 子 的 数量 也 相对 较 
多 。 因 此 ,为 了 理解 方便 ,我 们 根据 这 些 行动 算 子 的 输出 结果 ,将 它们 分 为 两 类 : OR 
据 运算 类 ,该 类 算 子 的 作用 是 触发 RDD 计算 ,并 得 到 计算 结果 返回 给 Spark 程序 或 
Shell 界面 ; @ 数 据 存储 类 ,该 类 算 子 在 触发 RDD 计算 后 ,将 结果 保存 到 外 部 存储 系统 
中 ,例如 HDFS 文件 系统 或 数据 库 。 下 面 我 们 就 对 这 两 类 算 子 分 别 进行 介绍 。 


4.3.1 数据 运算 类 行动 算 子 

在 介绍 这 类 算 子 时 ,我 们 从 大 家 在 Hadoop 中 可 能 已 经 比较 熟悉 的 reduce 算 子 开 
始 以 帮助 理解 ,然后 按照 算 子 的 字母 顺序 进行 介绍 。 

* reduce 一 一 Reduce 操作 

V 算 子 函数 格式 : 


-reduce(f: Function2 [T, T, T]: T 


对 RDD 中 的 每 个 元 素 依次 使 用 指定 的 函数 上 进行 运算 ,并 输出 最 终 的 计算 结果 。 
需要 注意 的 是 , Spark 中 的 reduce 操作 与 Hadoop 中 的 reduce 操作 并 不 一 样 。 在 
Hadoop 中 ,reduce 操作 是 将 指定 的 函数 作用 在 Key 值 相同 的 全 部 元 素 上 。 而 Spark 的 
reduce 操作 则 是 对 所 有 元 素 依次 进行 相同 的 函数 计算 。 

V 示例 : 


reduce 示例 代码 


1: scala? val nums =sc.parallelize (0 to 9,5)// 构 建 由 数字 0 -9 构成 的 RDD 
nums: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [18 ] at 
parallelize at «console »:12 
2: scala? nums.reduce ( + _) 从 计算 RDD 中 所 有 数字 的 和 
res0: Int =45 
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* aggregate 一 一 聚合 操作 
V 算 子 函数 格式 : 


-aggregate[U] (zeroValue: U) (seqOp: Function2 [U, T, U], combOp: Function2 
[U, U, UD: U 


aggregate 操作 使 用 参数 seqOp 指定 的 函数 对 每 个 分 区 里 面 的 元 素 进行 聚合 ,然后 
用 参数 combOp 指定 的 函数 将 每 个 分 区 的 聚合 结果 进行 再 次 聚合 ,在 进行 combOp R 
合 时 ,计算 的 初始 值 由 参数 zeroValue 指定 。 需 要 注意 的 是 ,聚合 操作 在 进行 每 个 分 区 
的 seqOp 操作 以 及 最 终 的 combOp 操作 时 ,生成 结果 的 数据 类 型 可 能 与 RDD 中 的 元 素 
不 一 样 。 

V 示例 : 





aggregate 示例 代码 


1: scala? val rdd-sc.parallelize (List (1,2,3,4,5,6), 2) // 构 建 原始 RDD 
rdd: org. apache. spark.rdd.RDD [Int] = ParallelCollectionRDD [0] at 
parallelize at <console >:12 
2: scala>rdd.glom.collect // 显 示 原 始 RDD 
res0: Array [Array [Int]] - Array (Array (1, 2, 3), Array (4, 5, 6)) 
3: scala» rdd.aggregate (0) ( «. , Math.max ( , )) // 对 原始 RDD 进行 聚合 , 求 每 个 
分 区 元 素 相 加 后 的 最 大 值 
resl: Int =15 


示例 代码 的 执行 过 程 如 图 4-30 所 示 。 原 始 RDD 为 数字 1 ~6 的 序列 ,分 别 存放 在 
两 个 分 区 中 。 第 3 行 代码 的 aggregate 操作 指定 的 seqOp 函数 是 _ +_, 及 每 个 分 区 的 所 
有 元 素 依 次 相 加 。 指 定 的 combOp 函数 为 Math. max( _,_) , 即 求 每 个 分 区 的 元 素 相 加 
后 的 和 构成 的 数据 集中 的 最 大 值 。 最 后 的 计算 结果 是 第 2 个 分 区 4、5.6 相 加 后 得 到 
的 15。 




















seqOp: ( * ) comOp: Math.max(_, ) 


4-30 aggregate 算 子 变换 过 程 
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* collect 一 一 收集 元 素 
V 算 子 函数 格式 : 


-collect (): List [T] 


collect 的 作用 是 以 数组 格式 返回 RDD 内 的 所 有 元 素 。 
V 示例 : 


collect 示例 代码 


1: scala? val data=sc.parallelize (List (1,2,3,4,5,6,7,8,9,0),2) // 构 建 原 
始 RDD 

data: org. apache. spark. rdd. RDD [Int] = ParallelCollectionRDD [8] at 
parallelize at «console >:12 
2: scala? data.collect // 显 示 原 始 RDD 中 的 元 素 

res0: Array [Int] =Array(1,2,3,4,5,6,7,8,9,0) 


* collectAsMap 一 一 收集 Key/ Value 型 RDD 中 的 元 素 
V 算 子 函数 格式 : 


- collectAsMap (): Map[K, V] 


收集 Key/ Value 型 RDD 中 的 元 素 , 并 以 Map 数据 类 型 的 方式 返回 结果 。 
V 示例 : 


collectAsMap 示例 代码 


1: scala? val pairRDD = sc.parallelize (List ((1,"a"), (2,"b"), (3,"c"), (4, 
"a")),2) 人 构建 原始 RDD 

pairRDD: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollection 
RDD [9]at parallelize at «console >:12 
2: scala? pairRDD.collectAsMap // 以 Map 的 方式 返回 RDD 中 的 结果 

res0: scala.collection.Map[Int,String] =Map (2 -> b, 4 ->d, 1 ->a,3 ->c) 


* count 一 一 计算 元 素 个 数 
V 算 子 函数 格式 : 


-count (): Long 


计算 并 返回 RDD 中 元 素 的 个 数 。 
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V 示例 : 


count 示例 代码 


1: scala? val rdd= sc.parallelize (List (1,2,3,4,5,6),2)// 构 建 原始 RDD 
rdd: org. apache. spark. rdd. RDD [Int] = ParallelCollectionRDD [2] at 
parallelize at «console >:12 

2: scala? rdd.count 人 计算 RDD 中 元 素 的 个 数 
res0: Long =6 


* countByKey 一 一 按 Key 值 统 计 Key/ Value 型 RDD 中 的 元 素 个 数 
V 算 子 函数 格式 : 


- count ByKey () : Map [K, Long] 


计算 Key/ Value 型 RDD 中 每 个 Key 值 对 应 的 元 素 个 数 ,并 以 Map 数据 类 型 返回 
统计 结果 。 
V 示例 : 


countByKey 示例 代码 


1: scala? val pairRDD = sc.parallelize (List (("fruit","Apple"), ("fruit", 
"Banana"), ( " fruit "," Cherry"), ( " vegetable", " bean"), ( " vegetable", 
"cucumber"), ("vegetable","pepper")),2) /构建 原 始 RDD 
pairRDD: org. apache. spark. räd. RDD [(String, String)] = Parallel 

Collection RDD[3]at parallelize at <console>:12 
2: scala? pairRDD.countByKey // 统 计 原始 RDD 中 每 个 物品 类 型 下 的 物品 数量 

res0: scala.collection.Map [String,Long] =Map (fruit ->3, vegetable -> 
3) 


示例 代码 的 第 1 行 构建 了 一 个 Key/ Value 类 型 的 RDD ,其 中 Key 为 物品 的 类 型 名 
称 ,例如 水 果 ( fruit) ,Value 为 物品 名 称 , 例 如 苹果 (Apple) 。 第 2 行 代码 的 目的 是 统计 
每 个 类 型 下 的 物品 数量 。 

* countByValue 


V 算 子 函数 格式 : 





统计 RDD 中 元 素 值 出 现 的 次 数 


- countByValue (): Map[T, Long] 


计算 RDD 中 每 个 元 素 的 值 出 现 的 次 数 ,并 以 Map 数据 类 型 返回 统计 结果 。 
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V 示例 : 


countByValue 示例 代码 





1: scala? val num=sc.parallelize (List (1,1,1,2,2,3),2) // 构 建 原始 RDD 
num: org. apache. spark.rdd. RDD [Int] = ParallelCollectionRDD [4 ] at 
parallelize at <console>:12 
2: scala? num.countByValue// 统 计 原始 RDD 中 每 个 数字 出 现 的 次 数 
res0: scala.collection .Map [Int ,Long] =Map(2 ->2,1->3,3 ->1) 





示例 代码 的 第 1 行 构建 了 一 个 由 数字 构成 的 RDD ,第 2 行 代码 的 目的 是 统计 每 个 
数字 出 现 的 次 数 。 

* first 一 一 得 到 首 个 元 素 

V 算 子 函数 格式 : 


-first():T 


返回 RDD 中 的 第 一 个 元 素 
V 示例 : 


first 示例 代码 


1: scala>val words =sc.parallelize(List ("first","second","third"),1)// 构 
建 原始 RDD 
words: org.apache .spark .rdd.RDD [String] = ParallelCollectionRDD [5]at 


parallelize at <console >:12 
2: scala? words.first // 得 到 首 个 元 素 
res0: String =first 


。 glom 一 一 返回 分 区 情况 

V 算 子 函数 格式 : 

-glom():JavaRDD [List [T]] 

原始 RDD 每 个 分 区 中 的 元 素 放 到 一 个 序列 中 , 并 汇集 所 有 分 区 构成 的 序列 生成 
新 的 RDD 返回 。 

V 示例 : 


m 





glom 示例 代码 


1: scala? val num=sc.parallelize (0 to 10,4) 人 /构建 原始 RDD 
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num: org. apache. spark.rdd. RDD [Int] = ParallelCollectionRDD [4] at 
parallelize at <console>:12 
2: scala>num.glom.collect// 显 示 分 区 中 的 元 素 分 布 情况 

res0: Array [Array [Int]] - Array (Array (0, 1), Array 2, 3, 4), Array (5, 6, 
7), Array (8, 9, 10)) 


* fold 一 一 合并 
V 算 子 函数 格式 : 


- fold (zeroValue: T) (f: Function2 [T, T, T]): T 


将 RDD 中 每 个 分 区 中 的 元 素 使 用 指定 的 函数 参数 f 做 合并 计算 ,然后 再 加 所 有 分 
区 生成 的 结果 使 用 f 函数 做 合并 。 在 分 区 内 和 不 同 分 区 间 进 行 合 并 的 初始 值 由 
zeroValue 指定 。 


Vil 


fold 示例 代码 


1: scala»? val words - sc.parallelize (List ("A","B","C","D"),2) /人 /构建 原始 
RDD 

words: org.apache.spark.rdd.RDD [String] = ParallelCollectionRDD [2]at 
parallelize at «console >:12 
2: scala? words.glom.collect /人 /显示 原始 RDD 的 分 区 情况 

res0: Array [Array [String]] - Array (Array (A, B), Array (C, D)) 
3: scala? words.fold("|")(. + "." + _) // 对 原始 RDD 执行 合并 

resi: String= |.|.A.B.|.C.D 


示例 代码 的 执行 过 程 如 图 4-31 所 示 。 示 例 代码 第 1 行 构建 了 一 个 由 字母 序列 构 
成 的 RDD ,存放 在 2 个 分 区 中 。 第 3 行 的 fold 操作 指定 的 f 函数 为 + n." + _, 即 将 
两 个 字符 串 用 . 连接 起 来 。 我 们 看 到 最 终 的 结果 为 1. 1. C. D. 1. A. B。 在 结果 的 最 前 面 
有 两 个 1. 字符 ,是 因为 在 分 区 内 合并 时 要 由 初始 值 带 入 一 个 1. ,在 所 有 分 区 结果 合并 
时 ,又 要 带 入 一 个 1. o 























| R] (r E CET E " | er ica 了 

| 全 H— MB | | | 
basia ttai 4 MU ak fads a En ad E 1 | 

ı |.]-A.B.].C.D ; 

| a q ne wey ace " 1 
(ui excl 
| E Neo E E 到 

fold("|"_+"."+_) fold("|"(_+"."+_) 


图 431 fold 算 子 变换 过 程 
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© foreach 一 一 逐个 处 理 RDD TH 
V 算 子 函数 格式 : 


- foreach (f: VoidFunction[(K, V)]): Unit 


对 RDD 中 的 每 个 元 素 ,使 用 参数 {f 指 定 的 函数 进行 处 理 。 
V 示例 : 


foreach 示例 代码 


1: scala? val words =sc.parallelize (List ("A","B","C","D"),2)// 构 建 原始 RDD 
words: org.apache.spark .rdd.RDD [String] = ParallelCollectionRDD [9]at 
parallelize at <console>:21 
2: scala»? words .foreach (x => println(x + "isa letter.")) 打印 输出 每 个 单 
词 构造 的 一 句 话 
Cisaletter. 
A is a letter. 
D is a letter. 
B is a letter. 


。 lookup 一 一 查找 元 素 
V 算 子 函数 格式 : 


- lookup (key: K): List[V] 


在 Key/ Value 型 的 RDD 中 ,查找 与 参数 key 相同 Key 值 的 元 素 ,并 得 到 这 些 元 素 
的 Value 值 构成 的 序列 。 
V 示例 : 


lookup 示例 代码 


1: scala> val pairs = sc.parallelize (List ("apple","banana","berry"," 
cherry", "cumquat ","haw"),1).keyBy ( .length) 人/ 构建 原始 RDD 

pairs: org.apache.spark.rdd.RDD[(Int, String)] -MapPartitionsRDD [13] 
at keyBy at < console >:21 
2: scala? pairs.collect 

res18: Array [(Int, String)] = Array ((5,apple), (6,banana), (5,berry), 
(6,cherry), (7,cumquat), G,haw)) 
3: scala? pairs.lookup (5) // 查 找 长 度 为 5 的 单词 

res19: Seq[String] =WrappedArray (apple, berry) 


示例 代码 的 第 1 行 是 构建 一 个 Key/ Value 型 的 RDD, Key 为 单词 长 度 , Value 为 单 
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词 。 第 3 行 代码 的 目标 是 查找 长 度 为 5 的 单词 。 
。 max 一 一 求 最 大 值 
V 算 子 函数 格式 : 


-max (comp: Comparator [(K, V)]): (K, V) 


返回 RDD 中 值 最 大 的 元 素 , 可 以 通过 参数 comp 指定 元 素 间 比较 大 小 的 方法 。 
V 示例 : 


max 示例 代码 


1: scala? val nums -sc.parallelize(0 to 9,1) /人 /构建 由 0 -9 组 成 的 RDD 

nums: org. apache. spark. rdd. RDD [Int] = ParallelCollectionRDD [18 ] at 
parallelize at <console>:12 

2: scala? nums .max // 寻 找 RDD 中 最 大 的 值 

res0: Int =9 


* min 一 一 求 最 小 值 

V 算 子 函数 格式 : 

-min (comp: Comparator [T]): T 

返回 RDD 中 值 最 小 的 元 素 , 可 以 通过 参数 comp 指定 元 素 间 比 较 大 小 的 方法 。 
V 示例 : 


min 示例 代码 


1: scala? val nums -sc.parallelize(0 to 9,1) // 构 建 巾 0 -9 组 成 的 RDD 

nums: org.apache. spark.rdd.RDD [Int] = ParallelCollectionRDD [18 ] at 
parallelize at <console >:12 
2: scala? nums .min // 寻 找 RDD 中 最 小 的 值 

res0: Int =0 


e take 一 一 获取 前 n 个 元 素 
V 算 子 函数 格式 : 





-take (num: Int): List [T] 


以 数组 的 方式 返回 RDD 中 的 前 num 个 元 素 。 
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V 示例 : 


take 示例 代码 


1: scala? val sample -sc.parallelize(0 to 4,1)// 构 建 0 -4 构成 的 RDD 
sample: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD[0]at 
parallelize at «console >:15 
2: scala? sample.take (2)// 返 回 RDD 中 的 前 两 个 元 素 
res0: Array[Int] -Array (0,1) 


* takeOrdered 一 一 获取 排序 后 的 前 n 个 元 素 
V 算 子 函数 格式 : 


- takeOrdered (num: Int): List [T] 


以 数组 的 方式 返回 RDD 中 的 元 素 经 过 排序 后 的 前 num 个 元 素 。 
V 示例 : 





takeOrdered 示例 代码 


1: scala? val sample -sc.parallelize(List (2,1,4,3,0),1) // js 0 -4 乱 序 后 
构成 的 RDD 
sample: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD[1]at 
parallelize at <console>:15 
2: scala>sample.takeOrdered (2)// 返 回 RDD 排序 后 的 前 2 个 元 素 
res0: Array [Int] -Array (0, 1) 


* takeSample 一 一 提取 n 个 样本 
V 算 子 函数 格式 : 


-takeSample (withReplacement : Boolean, num: Int, seed: Long): List [T] 


随机 提取 RDD 中 一 定数 量 的 样本 元 素 , 并 以 数组 方式 返回 。 参数 
withReplacement 指定 是 否 为 放 回 取样 ,参数 num 指定 提取 的 样本 数量 ,参数 seed 为 随 
机 种 子 。 

V 示例 : 


takeSample 示例 代码 


1: scala? val sample -sc.parallelize(0 to 9,1)// 构 建 0 -9 构成 的 RDD 
sample: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [0]at 
parallelize at «console »:12 
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2: scala? sample.takeSample (true,3,5) /以 有 放 回 取样 的 方式 选取 3 个 样本 元 素 
res0: Array [Int] -Array (8, 2, 8) 

3: scala» sample.takeSample (false,3,5) // 以 无 放 

元 素 


res1: Array [Int] -Array (4,3, 5) 





取样 的 方式 选取 3 个 样本 





El 








。 top 一 一 寻找 值 最 大 的 前 几 个 元 素 
V 算 子 函数 格式 : 


-top (num: Int, comp: Comparator [T]): List [T] 

返回 RDD 中 值 最 大 的 前 num 个 元 素 ,可 以 通过 参数 comp 指定 元 素 间 比 较 大 小 的 
方法 。 

V 示例 : 


top 示例 代码 


1: scala? val nums -sc.parallelize(0 to 9,1) // 构 建 由 0 -9 组 成 的 RDD 
nums: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [18 ] at 


parallelize at <console>:12 
2: scala>nums.top(3) /寻找 RDD 中 最 大 的 三 个 元 素 
res0: Array [Int] -Array (9,8, 7) 


4.3.2 存储 型 行动 算 子 


。 saveAsObjectFile 一 一 存储 为 二 进 制 文件 

V 算 子 函数 格式 : 

-saveAsObjectFile (path: String): Unit 

将 RDD 转换 为 序列 号 对 象 后 ,以 Hadoop SequenceFile 文件 格式 保存 ,保存 路 径 由 


参数 path 指定 。 
V 示例 : 


saveAsObjectFile 示例 代码 


1: scala? val data =sc.parallelize (0 to 9,1) // 构 建 0 -9 组 成 的 RDD 
data: org.apache.spark.rdd.RDD [Int] = ParallelCollectionRDD [40] at 


parallelize at «console >:12 
2: scala»? data.saveAsObjectFile ("obj") // f RDD 以 SequenceFile 文件 格式 保 


存 ,文件 名 为 obj 
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© saveAsTextFile 一 一 存储 为 文本 文件 
V 算 子 函数 格式 : 


- saveAsTextFile (path: String): Unit 


将 RDD 以 文本 文件 格式 保存 ,保存 路 径 由 参数 path 指定 。 如 果 要 节省 存储 空间 ， 
还 可 以 选择 使 用 该 接口 的 另 一 种 方式 saveAsTextFile( path: String, codec; Class[_ <: 
CompressionCodec] ) ,可 以 使 用 参数 codec 指定 压缩 方式 。 

V 示例 : 


saveAsTextFile 示例 代码 


1: scala>val data =sc.parallelize (0 to 9,1) // 构 建 0 -9 组 成 的 RDD 

data: org.apache. spark.rdd.RDD [Int] = ParallelCollectionRDD [40]at 
parallelize at «console >:12 
2: scala»? data.saveAsObjectFile ("text") // 将 RDD 以 文本 文件 格式 保存 ,文件 名 
3 text 


e saveAsNewAPIHadoopFile 一 一 存储 为 Hadoop 文件 
V 算 子 函数 格式 : 


-saveAsNewAPIHadoopFile[F <: OutputFormat [_, _]] (path: String, keyClass: 
Class [_], valueClass: Class [_], outputFormatClass: Class [F], conf: 
Configuration): Unit 


将 Key/ Value 型 RDD 存储 成 Hadoop 文件 ,输出 格式 由 参数 下 指定 ,保存 路 径 由 
参数 path 指定 。 
V 示例 : 


saveAsNewAPIHadoopFile 示例 代码 


1: scala? val pairs = sc.parallelize (List ("apple ","banana ","berry"," 
cherry","cumquat ","haw"),1).keyBy ( .length) /构建 原始 RDD 

pairs: org.apache.spark.rdd.RDD[(Int, String)] -MapPartitionsRDD [13] 
at keyBy at < console >:21 
2: scala»? pairs.saveAsNewAPIHadoopFile [TextOutputFormat [LongWritable, 
String]](hFilel) 
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e saveAsNewAPIHadoopDataset 一 一 存储 为 Hadoop 数据 集 
V 算 子 函数 格式 : 


- saveAsNewAPIHadoopDataset (conf: Configuration): Unit 


将 Key/ Value 型 RDD 保存 为 Hadoop 数据 集 ,该 接口 一 般 用 于 将 RDD 存储 到 如 
HBase 之 类 的 数据 库 中 。 
V 示例 : 


saveAsNewAPIHadoopDataset 示例 代码 


1: Configuration conf =HBaseConfiguration.create () // 构 造 HBase 配置 
2: conf.set(TableInputFormat.INPUT TABLE, "user") // 设 置 使 用 的 HBase 表 名 
3: pairRDD.saveAsNewAPIHadoopDataset (conf) 人 /将 RDD 数据 写 和 人 HBase 中 
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为 了 提高 计算 效率 ,Spark 采用 了 两 个 重要 机 制 : 四 基于 分 布 式 内 存 数 据 集 进 行 
运算 ,也 就 是 我 们 已 经 熟知 的 RDD; @@ 变 换算 子 的 惰性 执行 ( Lazy Evaluation) , 即 RDD 
的 变换 操作 并 不 是 在 运行 到 该 行 代码 时 立即 执行 ,而 仅 记录 下 转换 操作 的 操作 对 象 。 
只 有 当 运 行 到 一 个 行动 算 子 代码 时 ,变换 操作 的 计算 逻辑 才 真 正 执行 。 这 两 个 机 制 帮 
By Spark 提高 了 运算 效率 ,但 正如 ”硬币 都 有 两 面 "一 样 ,在 带 来 提升 性 能 的 好 处 的 同 
时 ,这 两 个 机 制 也 留 下 了 隐患 。 例 如 : 四 如 果 在 计算 过 程 中 ,需要 反复 使 用 某 个 RDD， 
而 该 RDD 需要 经 过 多 次 变换 才能 得 到 , 则 每 次 使 用 该 RDD 时 都 需要 重复 这 些 变 换 操 
作 , 这 种 运算 效率 是 很 低 的 ; @ 在 计算 过 程 中 数据 存放 在 内 存 中 ,如 果 出 现 参与 计算 的 
某 个 节点 出 现 问题 , 则 存放 在 该 节点 内 存 中 的 RDD 数据 会 发 生 损坏 。 如 果 损 坏 的 也 
是 需要 经 过 多 次 变换 才能 得 到 的 RDD ,此 时 虽然 可 以 通过 再 次 执行 计算 恢复 该 RDD , 
但 仍然 要 付出 很 大 的 代价 。 因 此 ,Spark 提供 了 一 类 缓存 算 子 ,以 帮助 用 户 解决 此 类 








问题 。 
* cache 227% RDD 
V 算 子 函数 格式 : 


- cache () : JavaRDD [T] 


cache 将 RDD 的 数据 持久 化 存储 在 内 存 中 ,其 实现 方法 是 使 用 后 面 我 们 会 介绍 的 
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persist 算 子 。 当 需要 反复 使 用 某 RDD 时 ,使 用 cache 缓存 后 ,可 以 直接 从 内 存 中 读 出 ， 
不 再 需要 执行 该 RDD 的 变换 过 程 。 需 要 注意 的 是 ,这 种 缓存 方式 虽然 可 以 提高 再 次 
使 用 某 个 RDD 的 效率 ,但 由 于 cache 后 的 数据 仅仅 存储 在 内 存 中 ,因此 不 能 解决 RDD 
出 错时 需要 再 次 恢复 运算 的 问题 。 而 且 cache 保存 的 数据 在 Driver 关闭 后 会 被 清除 ， 
因此 不 能 被 在 其 他 Driver 中 启动 的 Spark 程序 使 用 。 

V 示例 : 





cache 示例 代码 


1: scala? val num=sc.parallelize (0 to 9,1)// 构 建 RDD 

num: org. apache. spark.rdd.RDD [Int] = ParallelCollectionRDD [7 ] at 
parallelize at<console >:21 
2: scala? val result =num.map(x =>x*x) // 对 原始 RDD 进行 map 变换 

result: org.apache.spark.rdd.RDD [Int] = MapPartitionsRDD [8 ] at map 
at «console»:23 
3: scala? result.cache // 对 新 RDD 进行 缓存 

res19: result.type =MapPartitionsRDD [8]at map at € console >:23 
4: scala? result.count // 统 计 新 RDD 中 的 元 素 个 数 

res30: Long -10 
5: scala? result.collect ().mkString(",") 人 /再 次 使 用 新 RDD, 生 成 用 逗号 分 隔 的 
序列 

res31: String -0,1,4,9,16,25,36,49,64,81 


示例 代码 建立 了 一 个 由 数字 0 ~ 9 构成 的 原始 RDD ,然后 对 原始 RDD 进行 map 2E 
换 , 求 得 每 个 数字 的 平方 ,然后 通过 cache 对 新 生成 的 RDD 进行 持久 化 。 第 4 行 统计 
新 RDD 的 元 素 个 数 ,第 5 行 再 次 使 用 新 RDD 生成 用 逗号 分 隔 的 序列 ,此 时 Spark 将 直 
接 访问 持久 化 在 内 存 中 的 新 RDD ,而 不 需要 再 次 进行 之 前 的 map 变换 。 

* checkpoint 一 一 建立 RDD 的 检查 点 

V 算 子 函数 格式 : 


- checkpoint () : Unit 


对 于 需要 很 长 时 间 才 能 计算 出 或 者 需要 依赖 很 多 其 他 RDD 变化 才能 得 到 的 
RDD ,如 果 在 计算 过 程 中 出 错 ,要 从 头 恢 复 需要 付出 很 大 的 代价 。 此 时 ,可 以 利用 
checkpoint 建立 中 间 过 程 的 检查 点 ,Spark 会 将 执行 checkpoint 操作 的 RDD 持久 化 ,以 
二 进 制 文件 的 形式 存放 在 指定 的 目录 下 。 与 cache 不 同 的 是 ,checkpoint 保存 的 数据 
在 Driver 关闭 后 仍然 以 文件 的 形式 存在 ,因此 可 以 被 其 他 Driver 中 的 Spark 程序 
使 用 。 
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V 示例 : 


checkpoint 示例 代码 


1: scala>val rdd =sc.makeRDD (1 to 9,2) // 构 建 原始 RDD 
rdd: org. apache. spark.rdd. RDD [Int] = ParallelCollectionRDD [0 ] at 
makeRDD at <console >:21 
2: scala > val flatMapRDD = rdd.flatMap (x => Seq(x,x)) // 对 原始 RDD 做 
flatMap 变换 
flatMapRDD: org.apache.spark.rdd.RDD [Int] = MapPartitionsRDD [1 ] at 
flatMap at «console >:23 
3: scala? sc.setCheckpointDir ("my checkpoint") //4#7E checkpoint 存放 的 目 
录 
4: scala? flatMapRDD.checkpoint () // 建 立 checkpoint 
5: scala? flatMapRDD.dependencies.head.rdd /显示 变换 后 RDD 的 依赖 
res2: org. apache. spark. rdd. RDD [_] = ParallelCollectionRDD [0] at 
makeRDD at «console >:21 
6: scala? flatMapRDD.collect () // 显示 变 换 后 的 RDD 
res3: Array [Int] =Array(1,1,2,2,3,3,4,4,5,5,6,6,7,7,8,8,9,9) 
7: scala» flatMapRDD.dependencies.head.rdd // 再 次 显示 变换 后 RDD 的 依赖 
res4: org.apache. spark.rdd.RDD [_] = CheckpointRDD [2]at collect at < 
console >:26 


示例 代码 的 第 1.2 行 ,是 对 一 个 1.9 的 序列 构成 的 RDD 进行 flatMap 变换 。 在 第 3 
行 指定 了 检查 点 所 存放 的 目录 。 第 4 行 建立 检查 点 ,可 以 看 到 此 时 并 没有 真正 执行 
checkpoint 操作 。 而 且 从 第 5 行 的 输出 可 以 看 到 ,flatMap 变换 后 产生 的 RDD 还 是 依赖 
于 原始 RDD。 在 第 6 行使 用 collect 变换 显示 新 RDD 的 内 容 时 ,触发 了 flatMap 变换 的 
真正 执行 ,此 时 输出 结果 中 可 以 看 到 checkpoint 也 随 之 执行 了 。 而 且 ,从 第 6 行 的 输出 
可 以 看 到 ,新 RDD 的 依赖 已 经 随 着 checkpoint 的 执行 而 指向 检查 点 数据 了 。 在 今后 继 
续 使 用 flatMapRDD 时 ,如 果 flatMapRDD 出 现 问题 ,对 它 的 再 次 恢复 就 不 需要 由 原始 
RDD 进行 flatMap 变化 的 操作 了 ,Spark 会 直接 从 检查 点 数据 中 恢复 flatMapRDD。 

© persist — H5 A 44 RDD 

V 算 子 函数 格式 ; 





-persist (newLevel: StorageLevel): JavaRDD[T] 








调用 persist 可 对 RDD 进行 持久 化 操作 ,利用 参数 newLevel 可 以 指定 不 同 的 持久 
化 方式 ,常用 的 持久 化 方式 包括 : 
- MEMORY ONLY: 仅 在 内 存 中 持久 化 , 且 将 RDD 作为 非 序列 化 的 Java 对 象 存 
储 在 JVM 中 。 这 种 方式 比较 轻 量 ,是 默认 的 持久 化 方式 。 
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-MEMORY_ONLY_SER: 仅 在 内 存 中 持久 化 , 且 将 RDD 作为 序列 化 的 Java 对 象 
存储 (每 个 分 区 一 个 byte 数组 ) 。 这 种 方式 比 MEMORY_ONLY 方式 要 更 加 节 
省 空间 ,但 会 耗费 更 多 的 CPU 资源 进行 序列 化 操作 。 

- MEMORY. ONLY 2: 仅 在 内 存 中 持久 化 , 且 将 数据 复制 到 集群 的 两 个 节点 中 。 

-MEMORY_AND_DISK: 同时 在 内 存 和 磁盘 中 持久 化 , 且 将 RDD 作为 非 序列 化 
的 Java 对 象 存储 。 

-MEMORY_AND_DISK_SER: 同时 在 内 存 和 磁盘 中 持久 化 , 且 将 RDD 作为 序列 
化 的 Java 对 象 存储 。 

-MEMORY_AND_DISK_2: 同时 在 内 存 和 磁盘 中 持久 化 , 且 将 数据 复制 到 集群 的 
两 个 节点 中 。 

V 示例 : 


persist 示例 代码 


1: scala? val num-sc.parallelize(0 to 9,1) 人/ 构建 RDD 

num: org. apache. spark.rdd.RDD [Int] = ParallelCollectionRDD [0] at 
parallelize at <console >:12 
2: scala? num.getStorageLevel // 显示 RDD 当前 的 持久 化 状态 

res8: org.apache.spark.storage.StorageLevel = StorageLevel (false, 
false, false, false, 1) 
3: scala? num.persist() // 使 用 persist 进行 默认 的 MEMORY, ONLY 持久 化 

res9: num.type = ParallelCollectionRDD [5]at parallelize at < console 
2:21 
4: scala? num.getStorageLevel // 显示 RDD 新 的 持久 化 状态 

resl0: org.apache.spark.storage.StorageLevel = StorageLevel (false, 
true, false, true, 1) 


示例 代码 建立 了 一 个 数字 0 ~ 9 构成 的 RDD, 然后 通过 persist 进行 默认 的 
MEMORY_ONLY 持久 化 。 
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Spark 算法 设计 


在 第 4 章 , 我 们 了 解 了 Spark 中 的 常用 RDD 算 子 ,并 结合 一 些 简单 的 示例 代码 掌 
握 了 这 些 算 子 的 功能 和 使 用 方法 。 我 们 可 以 看 到 , 相 比 MapReduce 编程 模式 中 两 个 简 
单 的 map Ail reduce 函数 ,Spark 提供 了 非常 丰富 的 算 子 函数 。 这 些 丰 富 的 算 子 函数 ,一 
方面 形成 了 Spark 的 一 个 重要 特色 ,就 是 对 数据 异常 灵活 的 处 理 能 力 。 这 种 灵活 的 处 
理 能 力 , 可 以 说 是 Spark 除 基于 分 布 式 内 存 机 制 实现 的 高 性 能 特点 外 , 另 一 个 最 强大 的 
能 力 。 但 是 ,这 种 灵活 性 也 像 一 把 双 刃 剑 ,在 提升 Spark 数据 处 理 能 力 的 同时 ,也 设置 
了 较 高 的 学 习 门 槛 。 为 了 便于 大 家 掌握 Spark 算 子 函数 ,并 能 做 到 综合 运用 ,在 本 章 我 
们 通过 一 些 由 简单 到 复杂 的 算法 实例 ,为 大 家 展示 如 何 利 用 Spark 丰富 的 算 子 函数 设 
计 和 实现 一 些 常用 算法 。 


5.1 过 滤 


在 数据 挖掘 的 全 部 过 程 中 ,有 一 个 非常 重要 的 前 置 任务 ,就 是 数据 的 预 处 理 。 一 
方面 ,现实 世界 中 采集 的 数据 大 多 存在 一 些 不 完整 或 不 一 致 的 脏 数据 ; 另 一 方面 , 某 项 
具体 的 数据 挖掘 工作 也 不 一 定 要 用 到 全 部 数据 进行 处 理 。 因 此 ,原始 数据 在 进入 正式 
的 数据 挖掘 流程 之 前 ,通常 先 通过 数据 清理 、 数 据 集成 ,数据 变换 .数据 归 约 等 操作 进 
行 预 处 理 ,以 提高 数据 挖掘 的 性 能 和 质量 。 在 数据 预 处 理 的 具体 操作 中 ,最 常见 和 常 
用 的 操作 即 是 过 滤 操 作 。 过 滤 操 作 解 决 的 目标 问题 是 : 在 原始 数据 中 包含 大 量 的 记 
录 , 每 条 记录 由 某 个 实体 及 实体 的 若干 属性 构成 ,过 滤 操 作 的 目标 将 符合 一 定 条 件 的 
记录 取出 ,在 这 过 程 中 还 可 能 进行 格式 转换 。 

在 这 里 我 们 用 一 个 简单 的 实例 来 说 明 使 用 Spark 进行 数据 过 滤 的 方法 。 我 们 的 原 
始 数据 是 一 些 网 络 流量 日 志文 件 ,其 内 容 如 下 。 
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accessLog.csv 


0 18812345678 www.baidu.com/s?wd = spark 
118823456789 www.cnblogs.com/ jerrylead/ 
1 18834567890 www.qq.com/808/ 

0 13312345678 sina.com.cn/nba/ 

1 13323456789 weibo.com/csdnctoerwa 

1 13334567890 163 .com/15 /0309 


日 志文 件 中 的 每 行 数据 包含 3 列 : 第 1 列 是 接 人 网 络 的 类 型 ,0 为 2G 或 3G 网 络 ， 
1 为 4G 网 络 ; 第 2 列 是 用 户 标识 ,例如 手机 号 ( 当然 ,我 们 这 里 使 用 的 是 虚构 的 手机 
号 ) ; 第 3 列 是 用 户 访问 的 网 站 URL。 因 为 我 们 最 终 的 分 析 目 标 是 要 统计 最 新 部 署 的 
4G 网 络 中 用 户 访问 的 网 站 数量 情况 ,因此 我 们 希望 将 使 用 4G 网 络 访问 Web 的 记录 
过 滤 出 来 ,并 将 访问 的 网 站 URL 仅 保留 网 站 的 Host 字段 ,以 节省 计算 资源 。 因 此 ,我 
们 希望 对 accessLog. csv 文件 进行 过 滤 处 理 后 得 到 以 下 结果 。 








4GAccessLog.csv 


18823456789 www.cnblogs.com 
18834567890 qq.com 
13323456789 weibo.com 
13334567890 163.com 


我 们 使 用 下 面 的 代码 完成 以 上 过 滤 操 作 。 


过 滤 算 法 代码 


1: scala? val textRDD -sc.textFile ("accessLog.csv", 2) 
textRDD: org.apache.spark.rdd.RDD[String] -inputFile MappedRDD [18 Jat 
textFile at <console >:12 
2: scala»? val filteredRDD -textRDD.filter( .split(" ") (0).equals ("1")) 
filteredRDD: org.apache.spark.rdd.RDD [String] = FilteredRDD [19 ] at 
filter at <console>:14 
3: scala? val resultRDD = filteredRDD.map (word => ( 
| val columns -word.split (" ") 
| val phoneNum - columns (1) 
| val host = columns (2).replaceAll("/.*", "") 
IphoneNum +" "+ host 
13) 
resultRDD: org.apache.spark.rdd.RDD[String] -MappedRDD [20]at map at < 
console >:16 
4: Scala? resultRDD.saveAsTextFile("4GAccessLog") 
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代码 的 执行 过 程 如 图 5-1 所 示 。 代 码 第 1 行使 用 sparkContext 类 的 textFile 函数 读 
取 accessLog. csv 文件 生成 两 个 分 区 的 Value 型 RDD 对 象 textRDD。 代 码 第 2 行使 用 
filter 算 子 对 textRDD 中 的 每 条 记录 进行 过 滤 。 其 中 的 split 函数 将 每 条 记录 按 空格 分 
隔 进行 切 分 ,filter 算 子 会 保留 切 分 后 第 一 个 字段 等 于 1 的 全 部 记录 形成 新 的 RDD 对 
象 flteredRDD ,其 他 记录 则 被 丢弃 。 代 码 第 3 行 对 filteredRDD 进行 map 变换 。 在 这 个 
map 变换 中 进行 了 一 系列 操作 ,包括 按 空格 切 分 每 条 记录 ,取出 第 2 个 字段 ( 即 用户 手 
BLS) 第 3 个 字段 ( 即 Host) ,并 将 URL 中 在 “/“ 后 的 字符 清空 ,得 到 URL 中 的 host, 
最 后 保存 每 个 记录 的 用 户 手 机 号 和 访问 的 host 保存 为 结果 resultRDD。 代 码 第 4 行使 
用 行动 算 子 saveAsTextFile 将 结果 存 入 文件 夹 4GaccessLog Fo 


accessLog.csv textRDD filteredRDD 
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在 对 数据 进行 了 包括 过 滤 在 内 的 预 处 理 后 我 们 可 以 开始 进行 数据 挖掘 以 获取 有 
价值 的 信息 。 在 数据 挖掘 工作 中 ,计数 是 一 类 最 基础 的 分 析 。 我 们 熟知 的 WordCount 
程序 完成 的 就 是 基础 计数 工作 , 即 统计 数据 中 某 类 实体 的 出 现 次 数 ,例如 文本 文件 中 
的 单词 ,字母 等 。 在 这 一 节 中 我 们 讨论 的 是 一 类 特殊 的 计数 操作 ,去 重 计数 "”。 去 重 
计数 解决 的 目标 问题 是 : 在 原始 数据 中 包含 大 量 的 记录 ,每 条 记录 由 某 个 实体 及 实体 
的 若干 属性 构成 ,去 重 计数 的 目标 是 统计 某 一 属性 或 属性 组 合 A 在 另 一 关联 属性 或 属 
性 组 合 B 不 重复 的 情况 下 出 现 的 次 数 。 

我 们 以 一 个 具体 的 实例 来 说 明 去 重 计数 的 功能 。 我 们 的 输入 数据 是 在 上 一 节 经 
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过 过 滤 处 理 后 的 网 络 访问 日 志 , 即 只 保留 了 用 户 手 机 号 和 网 站 Host 的 日 志文 件 , 内 容 
如 下 。 


AGAccessLog.csv 


18812345678 www.baidu.com 
18812345678 www.baidu.com 
18834567890 www.baidu.com 
13312345678 www.baidu.com 
13323456789 www.sina.com 
13323456789 www.sina.com 


文件 中 的 每 行 数据 包含 2 列 : 第 1 列 是 户 手机 号 ,是 用 户 的 唯一 标识 ; 第 2 列 是 
用 户 访问 的 网 站 Host。 我 们 的 目标 是 要 统计 每 个 网 站 Host 被 多 少 个 不 同 的 用 户 访问 
过 , 即 希望 得 到 如 下 的 结果 。 





distinctUserCount.csv 


www .baidu.com 3 
www.sina.com 1 


为 此 ,我 们 编写 了 以 下 的 代码 以 实现 去 重 计数 。 


去 重 计数 算法 代码 


1: scala? val textRDD -sc.textFile ("4GAccessLog.csv") 

textRDD: org.apache.spark.rdd.RDD[String] -inputFile MapPartitionsRDD 
[1]at textFile at «console >:23 
2: scala? val mappedRDD = textRDD.map (word => { 

| val columns -word.split(" ") 

| val propertyl - columns (0) 

| val property2 -columns (1) 

| (property2, propertyl) 

2) 

mappedRDD: org.apache.spark.rdd.RDD[(String, String)] = MapPartitionsRDD 
[2]at map at < console >:25 
3: scala? val distinctedRDD - mappedRDD distinct () 

distinctedRDD: org.apache.spark.rdd.RDD[(String, String)] =MapPartitionsRDD 
[5]at distinct at « console »?:27 
4: scala? val setOneRDD -distinctedRDD.mapValues (propertyl =>1) 

setOneRDD: org.apache.spark.rdd.RDD [(String, Int)] -MapPartitionsRDD 
[6]at mapValues at € console >:29 
5: Scala» val reducedRDD = setOneRDD.reduceByKey (_+_) 

reducedRDD: org.apache.spark.rdd.RDD [(String, Int)] = ShuffledRDD[7] 
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at reduceByKey at « console >:31 
6: scala>reducedRDD.map (x =>x. 1 +" "+x._2).saveAsTextFile ("distinct 


UserCount") 


代码 的 执行 过 程 如 图 5-2 所 示 。 代 码 第 1 行使 用 sparkContext 类 的 textFile 函数 读 
取 4GAaccessLog. csv 文件 生成 Value 型 RDD 对 象 textRDD。 代 码 第 2 行将 textRDD 中 
元 素 按 空格 分 割 后 , 把 第 1 Fl (propertyl, 即 用 户 手 机 号 ) 设 为 Value, 把 第 3 列 
( property2 , 即 网 站 Host) 设 为 Key ,构成 Key/ Value 型 的 RDD 对 象 mappedRDD。 代 码 
第 3 行使 用 distinct 算 子 对 mappedRDD 中 的 键 值 对 进行 去 重 ,构成 新 的 Key/ Value 型 
的 RDD 对 象 distinctedRDD。 代 码 第 4 行使 用 mapValues 算 子 把 去 重 后 得 到 的 


distinctedRDD 中 每 条 记录 的 Value 


设 为 1, Key 保持 不 变 ,得 到 新 的 Key/ Value 型 的 


RDD 对 象 setOneRDD。 代 码 第 5 行使 用 reduceByKey 算 子 统计 setOneRDD 中 每 个 Key 
值 ( 即 网 站 Host) 的 数量 , 即 为 我 们 希望 统计 的 结果 。 最 后 ,代码 第 6 行使 用 行动 算 子 
saveAsTextFile 将 结果 存 入 文件 夹 distinctUserCount。 


inputFile 


18812345678 www.baidu.com 
18812345678 www.baidu.com 
18834567890 www.baidu.com 
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图 5 


5.3 相关 计数 


相关 计数 是 数据 挖掘 工作 中 的 一 


reduceByKey setOneRDD mapValues distinctedRDD 


2 去 重 计数 算法 过 程 


类 经 典 基础 问题 , 即 计算 两 个 或 多 个 实体 以 一 定 


方式 共同 出 现 的 次 数 或 概率 。 例 如 在 基于 统计 学 的 自然 语言 处 理 领 域 ,有 一 类 经 典 模 
型 是 概率 语言 模型 ( Probabilistic Language Models) ” 。 与 基于 明确 的 语言 规则 对 文 
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本 进行 分 析 的 传统 方法 不 同 ,概率 语言 模型 将 文本 看 成 是 一 系列 服从 一 定 概率 分 布 的 
词 项 的 样本 集合 ,从 而 引入 以 概率 估计 为 核心 的 数学 方法 对 文本 进行 分 词 .主题 提 取 
等 各 种 分 析 。 在 概率 语言 模型 中 ,最 核心 基础 的 算法 就 是 计算 文本 中 不 同 词 之 间 的 共 
同 出 现 次 数 。 依 问题 和 场景 的 不 同 ,这些 统计 方式 可 能 是 两 个 词 ,也 可 能 是 多 个 词 , 可 
能 是 有 序 的 ,也 可 能 是 无 序 的 。 为 简单 起 见 ,我们 这 里 以 计算 文本 中 两 个 词 共同 出 现 
的 次 数 为 例 来 介绍 相关 计数 的 Spark 算法 。 假 设 我 们 有 一 个 简单 的 文本 文件 如 下 
所 示 。 





textFile.csv 


It was the best of times 
It was the worst of times 


我 们 希望 统计 这 个 文本 文件 中 两 个 单词 共同 出 现 的 次 数 , 即 希望 得 到 如 下 的 


outputFile.csv 


(the,worst) 1 
(of,times) 2 
(best,of)1 
(the,best) 1 
(was,the) 2 
(It,was) 2 
(worst,of)1 


为 达成 这 一 分 析 目标 ,我 们 设计 实现 了 如 下 代码 。 


相关 计数 算法 代码 


import org.apache.spark.SparkConf 
import org.apache.spark.SparkContext 
import org.apache.spark.SparkContext. | 
object CrossCorrelation ( 
def main (args: Array [String]) ( 
if (args.length !=2) { 
System.err.println ("Usage: CrossCorrelationDemo < input path >< 


Yau UN 


output path>") 
8: System.exit (1) 
9s } 
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10: val inputFile -args (0) 

11: val outputFile -args (1) 

12; val conf - new SparkConf ().setAppName ("CrossCorrelationDemo") 
13: val sc =new SparkContext (conf) 

14: val textRDD -sc.textFile (args (0)).cache 

15; val wordRDD = textRDD .map ( .split(" ")) 

16: val mappedRDD = wordRDD.flatMap (words =>{ 

T for (i <-0 until words.length -1) 

18: yield ((words (i), words(i+1)),1) 

19: 2 

20: val reducedRDD = mappedRDD.reduceByKey (_+_) 

21: reducedRDD.map (x =>x._1+" "+x._2).saveAsTextFile(outputFile) 
22: } 

23% } 


因为 我 们 编写 了 一 个 独立 运行 的 Spark 程序 ,因此 我 们 可 以 首先 将 代码 打包 成 jar 
文件 ,然后 我 们 可 以 在 Shell 中 使 用 如 下 的 命令 执行 这 段 代码 对 textFile. csv 进行 处 理 。 
spark - submit V 
- -class CrossCorrelation\ 
- -master local\ 
/path/CrossCorrelation.jar\ 
/path/input \ 
/path/output 
class 参数 指明 了 应 用 程序 的 启动 类 ,master 参数 指明 了 集群 master 节点 的 地 址 ， 
由 于 本 例 比较 简单 ,因此 我 们 指定 master 参数 为 local ,即使 用 1 个 worker 线程 在 本 地 
运行 该 spark 应 用 程序 。 接 下 来 需要 指定 应 用 程序 的 jar 包 地 址 以 及 输入 输出 文件 的 
路 径 。 
代码 执行 的 过 程 如 图 5-3 所 示 。 因 为 这 段 代 码 是 一 个 独立 Spark 程序 , 而 不 是 直 
接 在 Spark Shel 中 运行 的 脚本 。 因 此 ,需要 在 代码 第 12 行 设置 Spark 参数 ,并 在 第 13 
行 创建 SparkContext 实例 。 代 码 第 14 行 读 取 参数 指定 的 textFile. csv 本 内 容 , 并 创建 
Value 型 RDD 对 象 textRDD。 代 码 第 15 行 以 空白 字符 分 割 输入 文本 ,得 到 所 有 输入 单 
inl ,并 保存 在 Value 型 RDD 对 象 wordRDD 中 。 代 码 第 16 行 对 wordRDD 进行 flatMap 
变换 , 以 生成 以 相 邻 单词 对 为 Key, KUH Value 的 Key/ Value 型 RDD 对 象 
mappedRDD。 代 码 第 20 行使 用 reduceByKey 算 子 对 mappedRDD 进行 简单 的 相同 Key 
值 次 数 相 加 , 即 得 到 了 单词 对 出 现 的 次 数 。 最 后 在 代码 第 21 行 保存 结果 。 
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图 5-3 ”相关 计数 算法 过 程 


5.4 相关 系数 


现实 世界 是 由 很 多 事物 和 现象 构成 的 ,在 这 些 事 物 和 现象 间 ,存在 着 错综复杂 的 
相关 关系 ,例如 天 气 晴 雨 与 天 空 云 量 ` 气 压 等 变量 间 的 关系 ,孩子 身高 与 父母 身高 、 饮 
食 习惯 等 变量 间 的 关系 。 为 了 研究 这 些 变量 间 的 关系 ,统计 学 家 们 提出 了 相关 系数 
(correlation coefficient) 这 一 数学 指标 ,用 以 反映 变量 之 间 相 关 关 系 密切 程度 。 常 见 的 
oO 相关 系数 "5 .斯 皮尔 曼 等 级 ( spearman's rank ) 相关 系 
BC) 、 肯 德尔 等 级 ( Kendall tau rank) 相关 系数 '” 等。 其 中 ,皮尔 逊 相关 系数 可 用 于 度 
量 两 个 变量 X 和 YY 之 间 的 线性 相关 关系 ,其 值 介 于 -1 与 1 之 间 , 由 于 其 简单 有 效 的 特 
性 而 被 广泛 应 用 。 两 个 变量 之 间 的 皮尔 逊 相关 系数 定义 为 两 个 变量 之 间 的 协 方差 和 
标准 差 的 商 ,计算 公式 如 下 。 





cov(X,Y) 
8,0, 


下 面 我 们 以 一 个 实例 来 说 明 采 用 Spark 计算 皮尔 逊 相关 系数 的 方法 。 假 设 我 们 有 
一 份 如 下 的 病人 基因 数据 。 


Pxy = (5-1) 
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geneFile.csv 


gi 
g2 
g3 
gl 
g2 
g3 
g3 
gi 
g2 
g2 
g3 
gl 
g2 
g3 
g2 
gi 
g2 
gi 
g2 


r2 pl 1.86 
r2 p1 0.74 
r2 pl 1.24 
r2 p2 2.46 
r2 p2 3.24 
rl p2 1.44 
r2 p2 1.23 
r2p3 1455 
rl p3 0.76 
r2 p3 1.34 
r2 p3 1.45 
r2 p4 1.56 
r2 pi 1.33 
r2 p4 1.45 
r2 pl 1.34 
r2 p3 1.23 
r4 p4 1.33 
r2 p2 1.55 
r2 p3 1.65 


PRPRPRPRPRP RRR 


文件 中 包含 病人 的 基因 数据 ,每 行 是 一 个 记录 ,记录 各 字段 用 空格 分 隔 ,4 个 字段 


: 基因 ID reference 值 .病人 ID .生物 标记 ( Double 形式 ) 。 我 们 的 目标 是 计算 


reference (Ey r2 的 各 基因 之 间 的 皮尔 逊 相关 系数 ,每 个 基因 ID 变量 都 以 4 个 病人 
(Pp1-p4) 为 实验 对 象 ,为 了 实验 的 准确 性 ,有 可 能 对 同一 个 人 做 不 止 一 次 的 生物 实验 检 
测 ,我 们 使 用 多 次 试验 的 平均 生物 标记 值 作为 该 用 户 的 测量 值 ,最 终 希望 得 到 如 下 


结果 。 





outputFile.csv 


(92,93) -0.45212493718074226 
(g1,93) -0.9516745980717424 
(91,92) 0.5741067710236532 


为 了 实现 以 上 计算 目标 ,我 们 编写 了 如 下 代码 。 


皮尔 逊 相关 系数 计算 代码 


心 w N PE 


import org.apache .commons .math3 .stat .correlation.PearsonsCorrelation 
import org.apache.spark.(SparkConf,SparkContext) 

import org.apache.spark.SparkContext. | 

import scala.collection.mutable 
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5: import scala.collection.mutable.ArrayBuffer 

6: object PearsonsCorrelationDemo { 

7: def main(args: Array [String]) ( 

8: if (args.length <3) ( 

9: System.err.println ("Usage: PearsonsCorrelation < reference > 
<input > < output >") 

10: System.exit (1) 

11: } 

12: val reference -args (0) 

334 val inputdir -args (1) 

14: val outputdir -args (2) 

15: val conf - new SparkConf () .setAppName ("pearson corrlation") 

16: val sc - new SparkContext (conf) 

17: val REF = sc.broadcast (reference) 

18: val text -sc.textFile (inputdir) 

19: val filteredRDD -text.filter(line => line.contains (REF.value)) 
20: val pairRDD = filteredRDD.map (line => line.split (" ")).map (a => 
(a(0), (a2), 48))) 

29: val groupRDD = pairRDD.groupByKey () 

22: val cartRDD = groupRDD.cartesian (groupRDD) 

23: val sortedRDD = cartRDD.filter (pair => pair. 1.1 «pair. 2. 1) 

24: val mappedRDD = sortedRDD.map (x => ((x. 1. 1, convertToMap (x. 1. 2)), 
25: (x..2..1, convertToMap (x._2._2)))) 

26: val corRDD = mappedRDD. map (x = > ((x._1._1, x._2._1), 
caculateCorrelation(x. 1.2, x. 2. 2))) 

27: corRDD .map (x =>x._1 +" "+x._2).saveAsTextFile (outputdir) 

28: } 

29: def convertToMap (tuples: collection. Iterable [Tuple2 [String, 
String]]) ={ 

30: var map - new mutable.HashMap [String, MutableDouble]() 

31; for (tuple2: Tuple2[String, String]<-tuples) ( 

32: if (map.contains (tuple2. 1)) ( 

335 map (tuple2. 1).increase (tuple2. 2.toDouble) 

34: } else { 

35; map.put (tuple2. 1, new MutableDouble (tuple2. 2 .toDouble) ) 

36: ) 

37; ) 

38: map 

39: ) 

40: def caculateCorrelation (hashmapl: mutable. HashMap [String, 
MutableDouble], hashmap2: mutable. HashMap [String, MutableDouble ]): 
Double = { 

41: var x-new ArrayBuffer [Double]() 

42: var y -new ArrayBuffer [Double]() 

43: for ((key, value) <-hashmap1) { 

44: if (hashmap2.contains (key)) ( 

45: x +=value.average() 

46: y +=hashmap2 (key).average () 


47: } 
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48: } 

49: if (x.size <3) { 

50: Double .NaN 

Si: } else { 

52: val ps =new PearsonsCorrelation() 

53: var corr -ps.correlation (x.toArray, y.toArray) 
54: corr 

55t } 

56: } 

Sit 3 


58: class MutableDouble extends Serializable{ 
59; def this (d:Double)( 


60: this() 

61: value «-d 

62: count -1 

63: ) 

64: private var value -0.0 
65: private var count -0 
66: def increase (d:Double): Unit - ( 
67: value «-d 

68: count «-1 

69: } 

70: def average ():Double- { 
73€ value / count 

72: } 

73: } 


代码 的 运行 过 程 如 图 54 所 示 。 代 码 第 18 行 首先 使 用 sparkContext 类 的 textFile 
函数 读 取 geneFile. csv 文件 生成 一 个 Value 型 RDD 对 象 textRDD。 代 码 第 19 行 调用 
filter 函数 过 滤 出 reference Jy 12 的 记录 ,得 到 filterRDD ,为 了 增加 程序 的 可 扩展 性 ,使 
得 程序 可 以 根据 不 同 的 reference 值 进 行 相关 系数 计算 ,我 们 将 reference 值 作为 程序 一 
个 输入 参数 ,并 将 该 值 广播 到 各 个 计算 节点 ,广播 操作 由 代码 的 第 17 行 完成 ,各 个 计 
算 节点 根据 输入 的 参数 可 以 过 滤 出 不 同 的 数据 。 然 后 代码 第 20 行 调用 map 函数 对 
filterRDD 中 的 每 一 条 记录 进行 格式 转换 ,转换 为 key-vlaue 形式 ,其 中 Key 为 基因 ID, 


value 为 (病人 ID 





` 生 物 标记 ) ,得 到 pairRDD。 代 码 第 21 行 调用 groupByKey 函数 ,对 


pairRDD 按 key 即 基因 ID 进行 汇聚 ,得 到 groupPRDD。 由 于 要 计算 所 有 基因 ID 两 两 之 


间 的 相关 系数 , 因 





到 cartRDD ,例如 


此 代码 第 22 行 对 汇聚 完 的 数据 调用 cartesian 函数 求 笛 卡 尔 乘 积 得 
Gene-ID 集合 为 | gl g2 ,g3 | , ABA ra SEK HH (gl 22), (gl, g3), (22, 


器 ) 之 间 的 相关 系数 。 我 们 求 笛 卡尔 乘积 可 以 得 到 : 
(gl,g1),(gl,e2),(g1,e3) (2,81) (Be (82,83) (83,81) ,(g3,g2) , (g3,g3) 


由 于 (多才 


Cg; g;) 的 相关 系数 相等 , 且 ( 8g ,8g;) 没 有 意义 ,因此 代码 第 23 行 对 笛 
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卡尔 乘积 的 结果 调用 filter 函数 进行 了 过 滤 , 以 保留 集合 ( g;,g) CEP i<j), RARE 
得 到 sortedRDD。 集 合 (g;,g) 中 不 同 的 变量 对 应 的 value 值 为 (病人 ID 生物 标记 ) 集 
合 。 代 码 第 24 行使 用 map 算 子 对 上 一 步 结果 中 的 每 一 行进 行 操作 。 在 map 算 子 内 调 
用 代码 29 ~ 39 行 定 义 的 convertToMap 函数 将 变量 g;、g) 对 应 的 value 值 放 入 不 同 的 
hashmap 中 。hashmap 的 key 为 病人 ID, value 值 为 代码 58 ~ 72 行 定义 的 
MutableDouble 类 型 值 。MutableDouble 类 包括 两 个 方法 : (Dincrease( ) 方 法 ,因为 需要 
计算 同一 个 病人 ID 的 生物 标记 的 平均 值 ,因此 increase( ) 方 法 负责 记录 生物 标记 值 的 
总 和 (存储 为 value) 和 样本 数 (存储 为 count); Qaverage( ) 方 法 计算 同一 个 病人 ID 的 
生物 标记 的 平均 值 。convertToMap 函数 首先 将 g; 对 应 的 所 有 value 值 放 入 hashmapl 
中 ,convertToMap 函数 对 对 应 的 value 值 也 进行 相同 的 操作 ,将 g 对 应 的 value 值 放 入 
hashmap2。 利 用 hashmap! 和 hashmap2 构建 了 如 表 5-1 所 示 的 数据 集 。 


表 5-1 hashmap 构建 的 数据 集 














hashmap1 hashmap2 
Key 
Value Value 
Patient-ID1 (sum( values) , count) (sum( values) , count) 
Patient-ID2 (sum( values) , count) (sum( values) , count) 
Patient-ID3 (sum( values) , count) (sum( values) , count) 











然后 代码 的 24 行使 用 map 算 子 对 数据 进行 操作 ,map 算 子 调用 40 ~ 57 行 定义 的 
caculateCorrelation 的 函数 计算 变量 之 间 的 相关 系数 ,在 caculateCorrelation 函数 中 35 、 
36 行 首先 创建 两 个 数组 来 存储 两 个 变量 & gl (8,43 ~48 行将 同一 用 户 的 生物 标记 
的 平均 价值 放 入 两 个 数组 的 对 应 位 置 ,构建 了 如 表 5-2 所 示 的 数据 集 。 


表 5-2 数组 构建 的 数据 集 








Patient-ID1 Patient-ID2 Patient-ID3 
gi avg( values ) avg( values) avg( values ) 
gj avg( values ) avg( values) avg( values ) 














由 于 皮尔 逊 相关 系数 需要 样本 的 数量 不 少 于 3 个 ,因此 49 50 行 判断 样本 数量 是 
否 不 少 于 3 个 ,如 果 样 本 数量 不 少 于 3 个 则 代码 51 ~ 55 行 调用 org. apache. commons 
的 PearsonsCorrelation 计算 两 个 变量 的 相关 系数 。 


inputFile 





gl 2 pl 1.86 


g212 p2 3.24 
3 rl p2 144 












1 
1 
1 
1 
1 
1 


由 


sc.textFile() 






HadoopRDD 


fei Dpli86 | 


in p2324 | 
2 
lgnpia | 
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MapPartitionsRDD 


rel pl 186 | 







1 
Vel 2p2246 | 
2 
1225324 | 








EN 86),(p2,2.46)]>,<22,{(1,0.74),(p2,3.24) >) 


[SUP 29) (eh (pl. 1 86)11(p2.2.46)]- 







Bae EE 3 
Mgl.[(pl, 1.86),.(p2,2.46))! 
V2 ((pl.o. 74)(p2,3.24)D} 
(811.124 











由 


MapPartitionsRDD 


groupbyKey 





T T l E 

(gL {(P1,1.86),(p2,2.46))),(22,[(p1,0.74),(p2,3.24))) 1 Ke 

(gl,l(p1,1.86),(p2,2.46)]),(g3,l(p1,1.24)])) im ce! 

eto. 74),(p2,3.24)]),(23,[(p1,1.24)])) EN nd 
D 


ji 





MapPartitionsRDD 由 MapPartitionsRDD — (à) corRDD 
map map 


9371807422) 
45980717424)| 





图 54 相关 系数 算法 过 程 
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((g1,82),0.5741067710236532) 


outputFile 


在 传统 的 数据 库 系统 中 ,数据 联结 是 一 个 基本 且 常 用 的 操作 ,例如 在 数据 库 中 存 
在 两 张 不 同 的 表 , 一 张 表 记 录 了 用 户 的 访问 信息 包括 用 户 ID ,用 户 访问 时 间 ,用 户 访问 
次 数 等 , 另 一 张 表 则 记录 了 用 户 的 购买 信息 包括 用 户 ID ,用 户 购买 商品 商品 价格 A 
买 次 数 等 。 现 在 需要 将 两 张 表 进行 联结 操作 ,以 便 全 面 了 解 一 个 用 户 的 全 部 信息 ,这 
时 就 需要 对 两 张 表 进行 联结 操作 。 两 张 表 的 联结 需要 指定 一 个 联结 条 件 列 , 即 如 果 该 
列 的 值 在 两 表 中 相同 则 进行 联结 操作 ,将 两 张 表 的 内 容 合并 。 如 果 联 结 条 件 列 的 值 在 
两 张 表 中 不 同 ,数据 库 可 以 提供 多 种 方式 来 决定 是 否 将 记录 保留 。 大 多 数 的 数据 库 都 
会 提供 join leftOuterJoin ,righOuterJoin 表 联 结 操作 。 表 联结 join 操作 只 有 联结 条 件 值 
在 两 个 表 中 都 出 现时 才 合 并 输出 。 表 联结 leftOuterJoin ,righOuterJoin 操作 除了 将 联结 
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条 件 值 相同 的 项 合并 输出 外 ,还 会 将 其 中 一 个 表 的 全 部 记录 保留 ,需要 保留 的 表 取决 
于 输入 两 个 表 的 位 置 , 将 操作 中 首先 输入 的 表 称 为 左 表 ,后 输入 的 表 称 为 右 表 ， 
leftOuterJoin 将 左 表 的 全 部 数据 保留 ,而 righOuterJoin 则 将 右 表 的 全 部 数据 保留 。 

在 Spark 中 也 提供 了 类 似 于 数据 库 表 联结 的 数据 联结 操作 "”" 。Spark 的 数据 联结 
操作 针对 的 是 Key/Value 型 RDD 数据 。Key/ Value 型 对 RDD 中 的 键 相 当 于 数据 库 中 
的 联结 条 件 列 。Spark 联结 两 个 Key/Value 型 RDD 时 ,根据 两 个 RDD 的 键 进行 联结 条 
件 判断 。 下 面 我 们 以 一 个 实例 来 说 明 Spark 中 的 各 种 数据 联结 操作 。 假 设 我 们 有 两 个 
如 下 的 数据 列表 , 表 中 有 两 列 ,一 列 为 字母 列 ,一 列 为 数据 值 列 。 


inputListl.csv 


a0 
al 
b2 
c5 
d6 


inputList2.csv 


al 
b3 
c6 
e2 


我 们 需要 得 到 不 同 联结 结果 。 
-期 望 1: 如 果 两 个 表 中 的 字母 列 的 值 相同 , 则 将 两 个 表 中 对 应 行 的 数据 列 进行 
联结 ; 如 果 字 母 只 在 一 个 表 中 出 现 , 则 该 行 记录 被 舍弃 , 即 希 望 得 到 如 下 结果 。 


outputFilel.csv 


a (0,1) 
a (1,1) 
b (2,3) 
c (5,6) 


-期 望 2: 如 果 两 个 表 中 的 字母 列 的 值 相同 , 则 将 两 个 表 中 对 应 行 的 数据 列 进行 
联结 ,并 且 保 留 mputListl 中 的 所 有 数据 , 即 希 望 得 到 如 下 结果 。 
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outputFile2.csv 


d (6,None) 

b (2,Some (3)) 
a (0,Some (1)) 
a (1,Some (1)) 
c (5,Some (6)) 


-期 望 3: 如 果 两 个 表 中 的 字母 列 的 值 相同 , 则 将 两 个 表 中 对 应 行 的 数据 列 进行 
联结 ,并 且 保 留 inputList2 中 的 所 有 数据 , 即 希望 得 到 如 下 结 


outputFile3.csv 


b (Some (2),3) 
e (None,2) 

a (Some (0),1) 
a (Some (1),1) 
c (Some (5),6) 


-期 望 4: 如 果 想 将 两 个 表 的 全 部 数据 保留 ,并 根据 字母 列 将 两 个 表 的 数据 联结 ， 
即 希望 得 到 如 下 结果 


outputFile4.csv 


d ((6),(6)) 

b {(2),(2)} 
et0,0) 

a {(0,1),(0,1)} 
c (6),6)) 


为 了 实现 以 上 4 个 联结 操作 ,我 们 编写 了 如 下 代码 


联结 算法 代码 
1: scala? val rddA -sc.parallelize (List (('a',0), ('a',1), ('b',2), ('C',5), ('8*, 
6))) 
rdd 1: org.apache.spark.rdd.RDD[(Char, Int)] = ParallelCollectionRDD 
[0]at parallelize at <console>:21 
2: scala»? val rddB-sc.parallelize (List (('a',1),('b',3), ('c',6), ('e',2))) 
rdd 2: org.apache.spark.rdd.RDD[(Char, Int)] - ParallelCollectionRDD 
[1]at parallelize at <console>:21 
3: scala > rddA.join (rddB).map (x -» x. 14" "x. 2).saveAsTextFile 
("outputFilel ") 
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4: Scala > rddA. leftOuterJoin (rddB).map (x =>x._1+" "+x._2). 
saveAsTextFile ("outputFile2") 
5: scala > rddA. rightOuterJoin (rddB).map (x => x. 1 «""«x. 2). 
saveAsTextFile ("outputFile3") 
6: scala > rddA.cogroup (rddB).map (x =>x._1+"{("+x._2._1.toArray. 
mkString(",") +"),("+x._2._1.toArray. 

mkString(",") +")}").saveAsTextFile("outputFile4") 


代码 执行 的 过 程 如 图 5-5 所 示 。 代 码 第 12 行使 用 sparkContext 类 的 parallelize 将 
List 表 集 合 进行 并 行 化 ,生成 Key/ Value 型 RDD 对 象 rddA 和 rddB 。 代 码 第 3 行 调用 
Key/ Value 型 RDD 的 转化 算 子 join, 内 联结 rddA fl rddB ,并 将 结果 收集 输出 得 到 期 户 
1 的 结果 。 代 码 第 4 行 调 用 Key/ Value 型 RDD 的 转化 算 子 leftOuterJoin, Ac 9p EK Zi 
rddA 和 rddB ,并 将 结果 收集 输出 得 到 期 望 2 的 结果 。 代 码 第 5 行 调用 Key/ Value 型 
RDD 的 转化 算 子 rightOuterJoin , 右 外 联结 rddA ffl rddB ,并 将 结果 收集 输出 得 到 期 望 3 
的 结果 。 代 码 第 6 行 调 用 Key/ Value 型 RDD 的 转化 算 子 cogroup ,联结 rddA 和 rddB 
求 出 两 个 RDD 数据 的 并 集 , 并 将 结果 收集 输出 得 到 期 望 4 的 结果 。 































joinedRDD 
(a(11) | 
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图 5-5 联结 算法 过 程 
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5.6 Top-K 


在 现实 统计 任务 中 ,统计 观测 数据 中 排名 Top-K 的 变量 是 一 个 极其 常见 的 统计 
任务 。 统 计 变量 排名 Top-K 主要 出 于 两 方面 的 原因 : 一 方面 ,现实 世界 中 采集 的 数据 
大 多 数量 很 大 , 想 对 数据 的 全 部 值 进行 统计 分 析 、 建 模 等 工作 需要 大 量 的 计算 工作 ,很 
难 实现 ; 另 一 方面 ,现实 中 许多 变量 都 服从 寡 律 分 布 , 即 大 部 分 的 资源 都 被 排名 靠 前 的 
少数 变量 所 占有 。 例 如 ,在 进行 网 络 流量 统计 时 ,超过 50% 的 网 络 流量 都 被 几 个 大 网 
站 (例如 QQ .百度 .新浪 等 ) 所 占用 。 为 了 简化 分 析 任务 的 难度 而 又 不 失去 分 析 的 准确 
性 ,网 络 运营 者 更 加 关心 排名 靠 前 (例如 前 K 个 ,简称 为 Top-K) 的 网 站 ,然后 根据 Top- 
K 网 站 的 流量 情况 来 合理 规划 和 调整 网 络 。Top-K 算法 解决 的 目标 问题 是 : 在 原始 数 
据 中 包含 大 量 的 记录 ,对 记录 的 某 一 特征 值 进行 统计 排序 ,最 终 只 取出 排名 前 K 个 的 
记录 。 这 种 问题 最 简单 的 方法 就 是 将 整个 数据 逐个 进行 排序 , 找 出 排名 前 K 个 的 记 
录 , 但 这 种 方法 显然 效率 不 高 。 我 们 使 用 并 行 的 思想 处 理 该 问题 ,采用 分 而 治之 的 思 


区 合并 找到 整个 数据 的 Top-k。 下 面 我 们 以 一 个 具体 的 实例 来 说 明 Top-K 算法 的 
Spark 实现 。 我 们 的 输入 数据 是 一 个 包含 许多 文档 的 文件 集 数 据 , 其 部 分 内 容 如 下 
所 示 。 


inputFile 


Apache Spark is an open source cluster computing framework originally 
developed in the AMPLab at University of California, Berkeley but was 
later donated to the Apache Software Foundation where it remains today. In 
contrast to Hadoop's two - stage disk - based MapReduce paradigm, Spark's 
multi -stage in -memory primitives provides performance up to 100 times 
faster for certain applications. By allowing user programs 

to load data into a cluster's memory and query it repeatedly, Spark is well 
- suited to machine learning .... 


出 于 篇 幅 所 限 我 们 没有 列 出 所 有 文件 内 容 ,只 是 显示 了 其 中 的 一 部 分 内 容 。 文 档 
中 的 每 个 单词 间 以 空格 分 隔 。 我 们 的 目标 是 要 统计 每 个 单词 的 出 现 次 数 ,最 终 找 出 出 
现 次 数 最 高 的 前 5 个 单词 , 即 希望 得 到 如 下 的 结果 。 
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outputFile.csv 


Spark 45 
and 34 

a 28 

the 25 
Apache 22 


为 此 ,我 们 编写 了 如 下 代码 以 实现 Top-K 算法 。 


TopK 算法 代码 


1: import org.apache.spark.SparkConf 

2 import org.apache.spark.SparkContext 

3 import org.apache.spark.rdd.RDD 

4 import scala.reflect.ClassTag 

5: import scala.collection.generic.Growable 
6 import java.util.PriorityQueue 

7 import scala.collection.JavaConverters. . 
8: object TopK ( 

9 def main (args: Array [String]): Unit = ( 


10: val Array (input, output) =args// 输 入 与 输出 路 径 

11: val sc =new SparkContext (new SparkConf ()) 

12: val K=5 人 /指定 K 的 大 小 

13 : val text -sc.textFile (input) 

14: val count -text.flatMap( .split (" ")).map((_, 1)).reduceByKey 

C € 2 /统计 单词 频数 

implicit val ord =Ordering.by [(String, Int), Int]( . 2) // 指 定单 
词 频 数 作为 排序 规则 

16: val topkResult -topK (count, K) /统计 频数 最 高 的 前 K 个 单词 

Tt Sc.parallelize (topkResult,1).map(x =>x._1+" "+x._2). 
saveAsTextFile (output); 

18: sc.stop() 

19: } 

20: def topK [T: ClassTag] (rdd: RDD[T], K: Int) (implicit ord: Ordering 
[T]): Array [T] ={ 

21: if (K==0) { 

22t Array.empty 

23: ) else ( // fii Hj BoundedPriorityQueue 统计 每 个 分 区 的 TopK 

24: val topKRDDs = rdd.mapPartitions (items => { 

25: val queue - new BoundedPriorityQueue [T] (K) 

26: items.foreach(queue +=_) 

AT Iterator.single (queue) 

28: » 

29: if (topKRDDs.isEmpty()) ( 

30: Array.empty 


31: ) else ( // 将 每 个 分 区 的 TopK 进行 归并 
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32: val reducedTopK -topKRDDs.reduce( ++=_) 

33: reducedTopK.toArray.sorted(ord.reverse) // ix TopK jt 
行 递 减 排 序 

34: ) 

35: ) 

36: ) 

She } 

38: class BoundedPriorityQueue [T] (maxSize: Int) (implicit ord: Ordering 
[T]) extends Iterable[T]with 

39: Growable[T]with Serializable ( // 有 界 优先 队列 

40: private val queue - new PriorityQueue[T] (maxSize, ord) //{#if java. 


util.PriorityQueue 





41: override def iterator: Iterator [T] -queue.iterator.asScala // 获 
取 队 列 迭 代 器 

42: override def size: Int -queue.size 

43: override def += (elem: T): this.type ={ 

44: if (size <maxSize) ( // 当前 队列 长 度 小 于 最 大 长 度 ,直接 向 队列 中 添加 元 素 
45: queue .add (elem) 

46: ) else ( // 当前 队列 长 度 已 经 达到 最 大 长 度 

47: val head - queue .peek () 

48: if (ord.gt (elem, head)) ( 人 /添加 的 元 素 大 于 最 小 元 素 , 则 进行 替换 
49: queue.poll 

50: queue.add (elem) 

51: ) 

52: } 

53% this 

54: ) 

55 override def clear -queue.clear 

56: ) 


代码 的 执行 过 程 如 图 5-6 所 示 。 代 码 的 第 10 行 是 程序 的 输入 输出 路 径 。 代 码 的 


第 4 行 创 


建 一 个 SparkContext 实例 。 代 码 第 12 行 设置 Top-K 的 K 值 ,由 于 我 们 只 需 最 


终 保留 词 频 排名 最 多 的 前 5 名 单词 ,因此 这 里 设置 K 等 于 5。 代 码 第 6 行 读 取 参 数 指 
定 的 输入 文本 内 容 , 并 创建 RDD 对 象 。 代 码 的 第 14 行 是 一 个 典型 的 wordcount 代码 ， 











首先 使 用 





split 方法 将 文档 每 一 行 按 空 格 分 隔 成 单词 ,然后 使 用 map 算 子 将 每 一 个 单词 


转化 为 Key/ Value 型 RDD , Key 为 单词 ,Value 值 为 1。 最 后 调用 reduceByKey 算 子 统 
计 每 个 单词 的 频次 。 由 于 代码 的 第 14 行 输出 为 一 个 Key/ Value 的 RDD ,因此 我 们 需 
要 指定 数据 按 那个 值 进行 排序 操作 。 在 这 里 我 们 是 对 频次 进行 排序 ,因此 我 们 指定 以 
RDD 中 的 第 2 列 值 也 就 是 Value 值 进行 排序 。 代 码 的 第 15 行使 用 scala 语言 中 的 


Ordering. 


by 方法 来 定义 排序 的 模型 ,以 输入 变量 的 第 二 个 值 为 排序 依据 。 后 续 代码 会 


调用 该 排序 模型 。 代 码 第 16 行 统计 出 整个 数据 中 词 频 排 名 前 5 的 单词 ,该 行 代码 调 
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用 了 代码 20 ~ 37 行 自 定义 的 topK 方法 。topK 方法 分 为 两 部 分 ,第 一 部 分 代码 21 ~ 28 
行 ,实现 统计 每 个 分 区 上 单词 词 频 Top-K 的 单词 。 在 每 个 分 区 的 统计 上 ,程序 调用 了 
38 ~56 行 定义 的 有 界 优先 队列 ,有 界 优先 队列 是 一 种 数据 排序 的 数据 结构 ,该 结构 首 
先 判断 当前 队列 长 度 是 否 小 于 指定 的 队列 最 大 长 度 ,如 果 队 列 未 达到 指定 的 队列 最 大 
长 度 则 直接 向 队列 中 添加 元 素 , 如 果 当 前 队列 长 度 已 经 达到 指定 的 队列 最 大 长 度 , 则 
判断 被 添加 的 元 素 是 否 大 于 队列 中 最 小 的 元 素 , 如 果 大 于 最 小 元 素 则 用 该 元 素 蔡 换 队 
列 中 的 最 小 元 素 。 我 们 使 用 该 数据 结构 来 快速 的 统计 、 存 储 每 个 分 区 上 的 词 频 Top-K 
单词 。topK 方法 的 第 二 部 分 代码 31 ~34 行将 每 个 分 区 的 TopK 单词 进行 归并 求 出 整 
个 数据 集 的 词 频 Top-K 单词 , 即 为 我 们 希望 得 到 的 结果 。 


inputFile textRDD WordCountRDD. 
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5-6 TopK 算法 过 程 


5.7 K-means 


K-means'” ”算法 是 数据 挖 据 算法 中 非常 典型 的 一 个 聚 类 算法 。K-means 算法 中 
的 K 指 的 是 希望 聚 类 结果 生成 的 类 别 个 数 。 算 法 将 n 个 数据 对 象 聚合 为 K 个 类 别 以 
使 得 在 同一 类 中 的 对 象 相似 度 较 高 ,而 不 同类 中 的 对 象 相似 度 较 小 。 相 似 度 通常 以 对 
象 到 类 质心 的 距离 作为 相似 性 的 评价 指标 。K-means 算法 的 基本 过 程 如 下 : DEL AE 
n 个 数据 对 象 中 选 定 K 个 不 同 的 点 作为 初始 质心 点 ,每 个 质心 可 以 看 作 是 一 个 类 别 的 
标识 点 ; @ 然 后 将 数据 集中 每 个 点 划分 到 距离 最 近 的 一 个 质心 所 对 应 的 类 别 ; @@ 完 成 
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一 次 类 的 划分 后 根据 此 次 聚 类 的 结果 重新 计算 各 个 类 别 的 新 质心 ; @ 如 果 新 的 质心 和 
之 前 的 质心 距离 大 于 某 个 阔 值 ,那么 说 明 现 在 的 聚 类 结果 还 没有 达到 最 佳 结果 ,需要 
进行 下 一 次 迭代 ,再 根据 新 的 质心 对 点 进行 分 类 ,直到 所 有 新 的 质心 和 之 前 的 质心 距 
离 小 于 某 个 阐 值 ,说 明 质 心 点 基本 不 再 更 新 ,算法 结束 。 

我 们 用 一 个 简单 的 三 维 坐 标点 实例 来 说 明 如 何 使 用 Spark 实现 K-means 算法 。 我 
们 的 原始 数据 内 容 如 下 。 


input.csv 


0.0 0.0 0.0 
0.1 0.1 0.1 
0.2 0.2 0.2 
9.0 9.0 9.0 
9.1 9.1 9.1 
9.2 9.2 9.2 


数据 一 共 包括 6 个 点 的 坐标 ,每 一 个 点 的 坐标 值 用 空格 分 隔 。 由 原始 数据 我 们 可 
以 很 明显 地 看 出 前 3 个 点 应 划分 为 一 类 ,而 后 3 个 点 应 该 划分 为 另 一 类 。 我 们 设 定 
K-means 算法 希望 聚 类 的 个 数 k 为 2。 我 们 最 终 希 望 得 到 的 结果 为 前 3 个 点 聚 类 后 的 
质心 点 和 后 3 个 点 聚 类 后 的 质心 点 , 即 如 下 的 两 个 质心 点 坐标 值 。 


9,1, 9.1, 941 
0.1, 0.1, 0.1 


为 此 ,我 们 编写 了 如 下 代码 以 实现 K-means 算法 。 


K - means 算法 代码 


1: scala?» val k=2 
k: Int =2 

2: scala? val e=0.1 
e: Double =0.1 

3: scala? val maxIterations =5 
maxIterations: Int -5 

4: scala»? var iteration =0 


iteration: Int -0 
5: scala? val data -sc.textFile ("input.csv").map (x -2x.split(" ").map( . 
toDouble)) 

data: org.apache.spark.rdd.RDD [Array [Double]] = MapPartitionsRDD [2] 
at map at < console >:21 
6: scala» data.cache 
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res0: data.type =MapPartitionsRDD [2]at map at <console >:22 


7: scala? var centers :Array [Array [Double]] =_ 
centers: Array [Array [Double]] =null 
8: scala» do{ 


| centers -data.takeSample (true,2,System.nanoTime.toInt) 
| )while (centers.map( .deep).toSet.size!-k) 
9: scala? def euclideanDistance (xs :Array [Double],ys:Array [Double]) = 
{ Math.sqrt ((xs zip ys) .map { 
| case (x,y) =>Math.pow(y -x, 2) }.sum) } 
euclideanDistance: (xs: Array [Double], ys: Array [Double])Double 
10: scala>var changed =true 
changed: Boolean = true 
11: scala? val dims -centers (0).length 
dims: Int -3 
12: scala» while (changed&& iteration <maxIterations) { 
iteration «-1 
changed - false 
// 计算 每 个 点 距离 最 近 的 质心 
val pointWithClass =data.map({ point => 
val closestCenterIndex =centers.zipWithIndex .map ({case (center, 
index) =>{ 
val distance = euclideanDistance (point ,center) 
(distance,index) 
}}) -reduce ((d1,d2) => if (d1.1>d2._1) d2 else d1). 2 
(closestCenterIndex, (point ,1)) 
}) 
A/ 计算 每 个 新 质心 所 属 点 的 坐标 总 和 还 有 点 的 个 数 
val totalContribs =pointWithClass.reduceByKey (( case ( (xs,c1), 
(ys,c2) ) => 
( (xs zip ys) .map{case (x,y) =>x+y},cl «c2))).collect 
// 计 算 新 的 质心 
val newCenters -totalContribs .map{ 
case (centerIndex, (sum,counts)) => 
(centerIndex,sum.map( /counts))).sortBy (_._1) .map (_._2) 
for(i <-0 until k){ 
if (euclideanDistance (centers (i) ,newCenters (i))>e) { 
changed = true; 
centers (i) =newCenters (i) 





) 
13: scala? centers.foreach(x -?println (x.mkString (","))) 


9.1, 9.1, 9.1 
0.1, 0.1, 0.1 


代码 的 执行 过 程 如 图 5-7 所 示 。 代 码 的 1 ~4 行 定义 了 算法 的 配置 参数 包括 : 
中 希望 将 数据 分 为 2 类; @ 算 法 的 终止 条 件 为 ,如 果 新 质心 与 原 质心 的 距离 小 于 0. 1 
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图 57 K-means 算法 过 程 


或 者 迭代 次 数 大 于 5 次 ; 图 算法 的 起 始 和 迭代 从 第 0 次 开始 。 代 码 第 5 行使 用 
sparkContext 类 的 textFile 方法 读 取 输 入 文件 ,并 将 每 一 行 的 坐标 值 用 空格 分 隔 ,最 后 将 
坐标 值 转化 为 Double 数字 类 型 以 便 后 续 的 距离 计算 。 因 为 K-means 算法 是 一 个 反复 
迭代 的 算法 ,需要 重复 使 用 各 个 点 的 坐标 值 来 计算 新 的 质心 ,因此 代码 第 6 行将 点 的 
坐标 值 使 用 cache 存 信 内存 中 来 加 快运 算 速度 。 代 码 第 7 行 定义 了 一 个 用 来 存储 质心 
点 的 数据 集合 。 代 码 第 8 行 随机 选取 输入 数据 中 的 两 个 点 作为 初始 质心 , 存 人 代码 第 
7 行 定义 的 集合 中 。 由 于 是 随机 选取 的 点 ,因此 我 们 使 用 了 一 个 do-while 循环 来 保证 
我 们 取 到 两 个 点 为 不 同 的 点 。 代 码 第 9 行 自 定义 了 一 个 计算 两 个 点 欧式 距离 的 函数 ， 
在 函数 中 使 用 scala 的 zip 函数 来 保证 两 个 点 对 应 位 置 坐标 值 的 计算 。 代 码 第 10 行 定 
义 了 一 个 循环 的 判断 标志 。 代 码 第 11 行 得 到 了 点 坐标 的 维 数 。 代 码 第 12 行 是 算法 
的 核心 部 分 ,算法 是 一 个 循环 更 新 的 过 程 ,循环 体内 部 总 共 包括 3 个 部 分 。 第 一 部 分 
计算 得 到 pointWithClass ,计算 出 每 个 点 所 属 的 类 别 ( 也 就 是 质心 ) ,pointWithClass 中 存 
储 了 各 个 点 所 属 的 质心 点 \ 点 的 坐标 值 以 及 个 数 标识 值 1。 在 计算 pointWithClass 时 首 
先 使 用 map 算 子 计算 每 一 个 点 到 不 同 质心 的 距离 ,再 使 用 reduce 算 子 得 到 距离 最 近 的 
质心 点 ,将 距离 最 近 的 作为 该 点 属 的 质心 点 输出 。 第 二 部 分 计算 得 到 totalContribs, 
totalContribs 中 存储 了 属于 某 个 质心 点 的 所 有 点 对 应 坐标 值 的 总 和 以 及 属于 该 质心 的 
所 有 点 的 个 数 ,计算 时 使 用 reduceByKey 将 所 有 点 依据 所 属 的 质心 进行 分 类 ,在 每 个 分 
类 内 计算 所 有 点 的 对 应 坐标 值 的 总 和 以 及 属于 该 类 的 点 的 个 数 总 和 。 然 后 计算 得 到 
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newCenters , newCenters 存储 了 新 的 质心 点 ,计算 newCenters 时 先 使 用 map 算 子 计算 每 
一 个 新 的 质心 点 ,再 判断 每 一 个 新 的 质心 点 与 原 质心 点 的 距离 是 否 大 于 初始 设置 的 距 
离 , 如 果 距 离 大 于 初始 设置 的 距离 则 进行 更 新 循环 继续 进行 ; 如 果 距 离 全 部 小 于 初始 
设置 的 距离 则 循环 计算 结束 。 最 后 代码 第 13 行 输出 打印 所 有 质心 点 。 


5.8 关联 规则 挖掘 


如 今 大 型 的 综合 性 网 络 购物 平台 越 来 越 多 , 像 国 内 的 淘宝 .天 猫 .京东 .当当 等 ， 
外 的 亚马逊 ebay 等 。 这 些 互联 网 购物 平台 使 得 人 们 足 不 出 户 就 可 以 买 到 商品 ,但 由 
于 互联 网 购物 平台 不 用 真实 的 卖场 展示 各 种 商品 ,同时 每 个 互联 网 购物 平台 都 经 营 着 
种 类 繁多 的 商品 ,这 就 使 得 顾客 想 从 浩瀚 如 海 的 商品 中 找到 适合 自己 的 商品 非常 困 
难 。 为 此 ,各 个 互联 网 购物 平台 无 一 例外 地 都 会 通过 推荐 系统 来 根据 每 个 客户 的 兴趣 
特点 和 以 往 的 购买 行为 ,向 用 户 推荐 可 能 希望 购买 的 商品 。 推 荐 系统 往往 是 一 个 庞大 
的 系统 ,算法 也 多 种 多 样 ,这 里 我 们 不 去 逐一 介绍 ,只 是 通过 其 中 一 种 简单 有 效 算 
法 一 一 关联 规则 挖掘 来 展示 Spark 的 算法 设计 。 

关联 规则 挖掘 就 是 在 大 量 数据 集中 发 现 隐藏 的 有 意义 的 联系 ,将 这 些 联系 用 关联 
规则 来 描述 , 即 计算 在 一 些 事件 发 生 的 情况 下 , 另 一 个 事件 发 生 的 可 能 性 。 一 条 关联 
规则 可 以 描述 为 XY, 其 中 ,X 和 “都 是 一 个 条 件 项 集 ,X 称 为 规则 的 左 部 ,Y 称 为 规 
则 的 右 部 ,并 且 满足 条 件 XNY = X ARUM AR X 出 现时 Y 也 会 出 现 。 关 联 规则 的 
强度 , 即 它 有 多 大 概率 是 成 立 或 可 用 的 ,由 支持 度 (s( XY) ) REGERE C (X Y) ) 来 
描述 ,它们 的 定义 如 下 。 
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其 中 ,符号 | * | 表示 集合 的 元 素 总 数 , 了 是 事务 总 集合 uu 是 事务 。 可 以 看 到 ,支持 度 即 
包含 X 和 了 的 事务 在 总 事务 中 的 占 比 , 它 描述 了 支持 该 关联 规则 的 事务 基数 是 否 足够 
大 。 如 果 支 持 度 太 低 , 说 明 即 使 在 过 往 的 记录 中 X 和 了 一 定 会 被 一 起 购买 ,但 这 可 能 
只 是 偶然 出 现 ,并 没有 什么 意义 。 置 信和 度 即 在 一 个 事务 中 当 出 现时 Y 出 现 的 概率 ， 
它 描 述 了 Y 伴 随 X 出 现 的 可 能 性 大 小 ,置信 度 越 高 ,说 明 通过 该 规则 进行 推理 越 可 靠 。 

在 这 里 我 们 用 一 个 简单 的 实例 来 说 明 如 何 使 用 Spark 实现 关联 规则 挖掘 算法 。 我 
们 的 原始 数据 是 一 些 用 户 购买 商品 的 记录 ,其 内 容 如 下 。 


c(X 一 了 ) = 
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inputFile.csv 


牛奶 ,咖啡 ,牛肉 
牛奶 ,火腿 ,牛肉 
猪肉 ,牛肉 
牛肉 ,猪肉 
火腿 ,牛肉 ,牛奶 


原始 数据 中 的 每 一 行 被 称 作 一 个 事务 ,每 个 事务 包含 顾客 一 次 购买 的 全 部 商品 。 
事务 中 的 每 一 种 商品 被 称 为 一 个 项 ,如 “牛奶 ”是 一 个 项 “火腿 "也 是 一 个 项 。 包 含 0 
个 或 多 个 项 的 集合 被 称 为 项 集 。 因 此 每 一 个 事务 可 以 看 作 是 一 个 项 集 ,事务 的 一 个 子 
集 也 可 以 看 作 是 一 个 项 集 。 如 果 一 个 项 集 包 含 k 个 项 , 则 称 它 为 k- 项 集 。 对 于 一 个 给 
定 的 事务 集合 7, 它 包含 的 项 集 可 以 分 为 1- 项 集 ,2- 项 集 ,……,k- 项 集 ,k 是 了 中 的 最 大 
事务 宽度 ( 即 事务 所 包含 的 项 数 ) 。 例 如 ,对 于 上 面 的 输入 事务 集合 7, 最 大 的 事务 宽 
度 为 3, 因 此 可 以 生成 1.2,.3 MR, WK 5-3 所 示 。 





表 5-3 ”项 集 规则 实例 














项 k 关联 规则 

1- 项 集 1 牛奶 | 、| 咖啡 | .| 牛肉 | 、| 火腿 | 、| 猪肉 | 

2- 项 集 | 牛奶 ,牛肉 | .| 咖啡 ,牛奶 | 、| 咖啡 ,牛肉 | 
i | 火腿 ,牛奶 | 、| 火腿 ,牛肉 | 、| 牛肉 ,猪肉 | 

3- 项 集 | 咖啡 ,牛奶 ,牛肉 | 、| 火腿 ,牛奶 ,牛肉 | 


其 中 每 个 项 集 内 可 以 生成 若干 候选 关联 规则 ,如 3- 项 集 | 咖啡 ,牛奶 ,牛肉 | 可 以 生 
成 以 下 的 候选 关联 规则 。 

| 牛奶 ,咖啡 1 一 | 牛奶 | | 牛奶 ,牛肉 | 一 | 咖啡 | | 咖啡 ,牛肉 | 一 | 牛奶 | 

| 牛奶 1 一 | 咖啡 ,牛肉 | | 咖啡 1 一 | 牛奶 ,牛肉 | | 牛肉 | 一 | 咖啡 ,牛奶 | 

而 这 些 候选 关联 规则 是 否 最 终 能 够 成 为 可 用 的 关联 规则 就 要 计算 规则 的 支持 度 
和 置信 度 了 。 这 里 我 们 设置 支持 度 大 于 0.4 和 置信 度 大 于 0.7 的 规则 才 最 终 确定 为 
可 用 的 规则 。 另 外 ,为 了 提高 算法 的 速度 ,通常 会 先 舍弃 支持 度 不 够 的 关联 规则 ,不 再 
对 它们 计算 置信 和 度 。 从 支持 度 的 定义 可 以 知道 , 它 只 跟 项 集 XUY 在 事务 集合 中 出 现 
的 频数 有 关 , 即 同一 个 项 集 XUY 生成 的 所 有 关联 规则 的 支持 度 是 一 样 的 。 因 此 ,由 一 
个 项 集 生成 的 所 有 关联 规则 的 支持 度 ,可 直接 由 这 个 项 集 出 现 的 频数 和 总 事务 数 计算 
得 到 。 为 了 更 清楚 地 说 明 关 联 规 则 挖掘 算法 ,我 们 只 考虑 简单 的 右 部 集 为 1- 项 集 的 关 
联 规则 , 即 希望 得 到 如 下 规则 结果 。 
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outputFile.csv 


(List (猪肉 ) ,List (牛肉 ),1.0,0 .4) 
(List (火腿 ,牛奶 ) List (牛肉 ) ,1 .0,0.4) 
(List (牛奶 ) ,List (牛肉 ),1.0,0.6) 
(List (火腿 ,牛肉 ) List (牛奶 ),1.0,0.4) 
(List (火腿 ) ,List (牛奶 ),1.0,0.4) 
(List (火腿 ) List (牛肉 ),1.0,0 .4) 





为 此 ,我 们 设计 了 以 下 代码 完成 以 上 规则 挖掘 工作 。 


关联 规则 挖掘 算法 代码 
1: import org.apache.spark.{ SparkConf, SparkContext } 
Zs import org.apache.spark .SparkContext ._ 
3: object AssociationRuleMiningDemo { 
4: def main(args: Array [String]): Unit ={ 
5: if (args.length <2) { 
6: System.err.println ("Usage: AssociationRuleMiningDemo < 
transactions ><output path>") 
7: System.exit (1) 
8: } 
95 val Array (transactionsFileName, outputPath) -args 
10: val sparkConf - new SparkConf () .setAppName ("Association Rule 
Mining Demo") 
Tis val sc =new SparkContext (sparkConf) 
22 val transactions =sc.textFile(transactionsFileName, 2).cache 
135 val transactionSize -transactions.count (); 
14: val itemsets - transactions.map (toList).map (findSortedCom 
binations( )).flatMap(x-? x).filter( .size >0).map(x => (x, 1L)).cache 
15: val minSup =0 .4 
16: val combined -itemsets.reduceByKey( + _) 

.map (x => (x. 1, (x._2, x._2.toDouble / transactionSize. 
toDouble))) 

.filter( .2.2»-minSup).cache 
TT val subitemsets = combined.flatMap (itemset => { 
18: vallist -itemset. 1 
19: val frequency -itemset. 2. 1 
20: val support -itemset. 2. 2 
24: var result -List((list, (List(""), (frequency, support)))) 
22: if (list.size ==1) { 
23: result 
24: }else { 


25; for (i <-0 until list.size) { 
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26: val listX -removeOneItem(list, i) 

27: val listY =list.diff(listx) 

28: result ++= List ((listX, (listY, (frequency, 
support)))) 

29: } 

30: result 

31: } 

32: )).cache 

33: val rules = subitemsets.groupByKey () 

34: val assocRules = rules .map (in => { 

35: vallistX-in. 1 

36: val listYLists =in._2.toList 

37's val countX -listYLists.filter( . 1(0) =="") (0) 

38: val newListYLists =listYLists.diff (List (countX)) 

39: if (newListYLists.isEmpty) { 

40: val result =List ((List (""), List (""), 0.0D, 0.0D)) 

41: result 

42: )else( 

43: val result -newListYLists.map (t2 => (listX, t2. 1, t2... 


2. 1.toDouble 
/countX. 2. 1.toDouble, t2. 2..2)) 


44: result 

45: ) 

46: n 

47: val minConf -0.7 

48: val finalResult = assocRules.flatMap (x => x).filter( . 3 >= 
minConf) 

49: finalResult .saveAsTextFile (outputPath) 

50: System.exit (0) 

Sie } 

52s def toList (transaction: String): List [String] - ( 
5345 val list -transaction.trim().split (",").toList 
54: list 

555 } 

56: def removeOneItem(list: List [String], i: Int): List [String] = ( 
Sie if ((list ==null) || list.isEmpty) ( 

58: return list 

59: } 

60: if ((i <0) II (i> (list.size-1))) { 

61: return list 

62: } 

63€ val cloned =list.take(i) ++list.drop(i + 1) 
64: cloned 

65: $ 


66: def findSortedCombinations [T] (elements: List [T]) (implicit B: 
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Ordering[T]): List [List [T]] ={ 


67: 

toList).toList 

68: result 
69: ) 

70: } 


val result = elements. sorted (B). toSet [T]. subsets. map (_. 


代码 的 执行 过 程 如 图 5-8 所 示 。 代 码 第 12 行使 用 sparkContext 类 的 textFile 函数 


读 取 用 户 的 交易 数据 文件 inputFile. csv 生成 ParallelizedRDD。 代 码 第 13 行 统计 事 
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的 总 数 , 即 交 易 数 据 文件 inputFile. csv 中 的 交易 记录 总 数 。 代 码 第 14 行将 每 一 行 记录 
的 购买 商品 进行 分 割 , 然 后 求 出 每 一 行事 务 的 所 有 项 集 , 最 后 将 一 行事 务 的 所 有 项 集 
以 Key/ Value 对 的 形式 输出 ,其 中 Key 是 项 集 , Value 设 为 1, 最终 将 计算 得 到 的 结果 
存 为 iemsets。itemsets 的 计算 使 用 了 多 个 算 子 ,首先 调用 一 个 map 算 子 ,该 map HF 
调用 52 ~55 行 定义 的 toList 方法 ,toList 方法 负责 将 每 一 行 的 各 个 购买 记录 以 逗号 进 
行 分 割 , 将 分 割 后 的 所 有 项 存 人 一 个 集合 中 。 之 后 调用 了 另 一 个 map 算 子 ,该 map 算 
子 调用 了 66 ~ 69 行 定 义 的 findSortedCombinations 方法 ,findSortedCombinations 方法 负 
责 计算 出 集合 的 所 有 子 集 。 之 后 调用 flatMap 算 子 将 所 有 子 集 扁平 化 为 独立 的 单元 ， 
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再 使 用 filter 算 子 过 滤 掉 大 小 为 0 的 单元 子 集 。 最 后 使 用 map 算 子 将 单元 子 集 以 Key/ 
Value 对 的 形式 存储 成 itemsets。 这 里 的 单元 子 集 就 是 上 面 介绍 关联 规则 挖掘 时 提 到 
的 项 集 ,以 下 将 称 其 为 项 集 ,以 对 应 上 面 的 概念 定义 。 代 码 第 15 行 设置 了 支持 度 的 阅 
值 。 代 码 第 16 行 首先 计算 每 个 项 集 的 支持 度 ,然后 过 滤 掉 支持 度 没 有 达到 阐 值 的 项 
集 ,最 终 将 结果 存 为 combined。 计 算 combined 同样 使 用 了 多 个 算 子 ,首先 使 用 
reduceByKey 计算 每 个 项 集 在 输入 事务 中 出 现 的 总 次 数 ,然后 使 用 map 算 子 计算 每 个 
项 集 的 支持 度 ,map 的 输出 包括 3 个 值 ,分 别 是 项 集 、 项 集 的 出 现 次 数 \ 项 集 的 支持 度 ， 
最 后 使 用 名 ter 算 子 过 滤 掉 小 于 阔 值 的 项 集 。 代 码 17 ~ 32 行 对 支持 度 大 于 阔 值 的 每 一 
个 项 集 进行 处 理 ,一 个 项 集 生成 一 个 关联 规则 列表 (只 包含 右 部 为 1- 项 集 的 关联 规 
则 ) ,并 使 用 flatMap 算 子 将 所 有 关联 规则 列表 扁平 化 成 一 个 个 关联 规则 。 在 flatMap 
算 子 的 输入 函数 中 ,代码 首先 以 项 集 本 身 作 为 规则 的 左 部 ,以 空 集 作为 规则 的 右 部 来 
生成 一 个 规则 ; 因为 每 个 项 集 的 出 现 总 次 数 会 在 计算 置信 度 时 用 到 ,因此 对 每 个 项 集 
我 们 都 生成 了 一 个 左 部 为 项 集 本 身 的 规则 ,用 来 表示 这 个 项 集 的 出 现 总 次 数 。 接 着 代 
码 判断 项 集 的 大 小 是 否 为 1, 如 果 项 集 的 大 小 为 1, 则 说 明 该 项 集 只 包含 一 个 商品 ,该 
项 集 不 会 生成 其 他 规则 ; 如 果 项 集 的 大 小 不 为 1 ,我 们 会 遍历 项 集中 的 每 一 个 商品 , 然 
后 调用 代码 56 ~ 65 行将 该 商品 作为 规则 的 右 部 ,而 将 项 集中 的 其 他 所 有 商品 作为 规 
则 的 左 部 ,从 而 生成 一 条 关联 规则 ; 最 后 返回 的 result 即 为 包含 该 项 集 所 生成 的 所 有 
关联 规则 的 一 个 列表 ; 所 有 输入 项 集 生成 的 多 个 列表 由 flatMap 算 子 扁平 化 后 , 变 成 一 
条 条 关联 规则 。 代 码 17 ~ 32 行 的 最 终 输出 同样 是 一 个 key-value 型 的 RDD, key 是 规 
则 的 左 部 ,value 包含 3 个 部 分 ,第 一 部 分 是 规则 的 右 部 ,第 二 部 分 是 项 集 的 出 现 次 数 ， 
第 三 部 分 是 规则 的 支持 度 。 代 码 第 33 行使 用 groupByKey 算 子 将 key 相同 的 规则 聚 为 
一 组 , 即 左 部 相同 的 规则 会 聚 为 一 组 , 左 部 相同 的 规则 包括 两 类 : 一 类 是 value 中 的 
规则 右 部 不 为 空 的 集合 ,标识 了 一 个 候选 的 规则 ,其 value 中 的 次 数 是 该 规则 的 出 现 
次 数 ; 另 一 类 是 规则 右 部 为 空 的 集合 ,该 value 中 的 次 数 标识 了 规则 左 部 项 集 的 出 
现 次 数 。 之 后 代码 34 ~ 46 行 会 使 用 map 算 子 在 同一 组 中 根据 规则 的 出 现 次 数 和 规 
则 左 部 项 集 的 出 现 次 数 来 计算 置信 度 。 代 码 47 行 设 置 置信 度 的 阔 值 。 最 后 代码 第 
48 行使 用 flatMap 和 filter 算 子 生成 规则 并 过 滤 掉 置信 度 没有 达到 置信 度 阔 值 的 规 
则 。 代 码 第 49 行将 结果 存储 输出 。 
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5.9 KkNN 


KNN 算法 ”是 数据 挖掘 算法 中 一 个 十 分 经 典 的 分 类 算法 ,与 之 前 我 们 介绍 的 
K-means 算法 类 似 ,kNN 算法 也 是 基于 样本 点 间距 离 计算 的 算法 。 但 与 K-means 聚 
类 算法 不 同 ,kNN 算法 是 一 个 分 类 算法 。kNN 分 类 算法 的 输入 不 同 于 K-means R% 
算法 ,kNN 算法 的 输入 包括 两 个 数据 集 , 一 个 是 样本 点 已 有 分 类 结果 的 数据 集 , 男 一 
个 是 样本 点 不 知道 分 类 结果 需要 通过 kNN 算法 进行 判断 的 数据 集 ,kNN 算法 会 根 
据 已 知 分 类 数据 集 对 未 知 分 类 结果 数据 集 进行 分 类 判断 。 因 此 ,kNN 算法 不 需要 像 
K-means 算法 那样 经 过 一 个 反复 迭代 训练 模型 的 过 程 。 对 于 输入 的 已 知 分 类 标签 样 
本 点 数据 集 和 未 知 分 类 标签 的 样本 点 数据 集 ,kNN 算法 会 根据 已 分 类 的 样本 点 来 判 
断 未 分 类 样本 点 的 类 别 。kNN 算法 过 程 如 下 : 中 计算 未 知 分 类 样本 点 与 已 知 分 类 
样本 点 的 距离 (通常 使 用 欧 氏 距离 ); @ 选 取 k 个 距离 最 短 的 样本 点 ,这 里 的 k 是 根 
据 具体 情况 而 设 定 的 , 即 根据 实际 情况 选取 参与 投票 的 样本 点 数 ; @@ 最 后 按照 少数 
服从 多 数 的 原则 进行 分 类 , 即 这 k 个 样本 点 属于 哪个 类 型 的 数量 最 多 , 则 将 该 未 知 
分 类 的 样本 点 分 类 为 这 个 数量 最 多 的 类 。 

我 们 用 一 个 简单 的 实例 来 说 明 如 何 使 用 Spark 实现 KNN 算法 。 算 法 原始 数据 
的 输入 文件 包括 两 个 文件 ,其 内 容 如 下 。 

输入 数据 1: 





inputFilel.csv 


a12344 
b44321 
63-3324 
da0011-2 
a12345 
b54321 
e33333 
dio3-3-3-3-3 


输入 数据 2: 


inputFile2.csv 


23124 
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84371 
P2532 
-2-3190 
-1-1-1-1-1 
00000 
07653 


inputFilel. csv 是 带 有 分 类 标签 的 数据 集 ,inputFilel. csv 包含 6 列 值 ,第 一 列 为 
记录 的 类 别 ,后 面 5 列 为 记录 的 不 同属 性 值 。inputFile2. csv 是 我 们 需要 对 其 进行 分 
类 的 数据 集 , 包 括 5 列 属性 值 。 我 们 最 终 希 望 得 到 的 输出 结果 如 下 , 即 每 一 条 记录 
都 在 第 一 列 加 入 一 个 类 别 标签 。 


outputFile.csv 


c23124 
b84371 
b72532 
a-2-3190 
d-1-1-1-1-1 
d00000 
a07653 


为 此 ,我 们 编写 了 以 下 的 代码 以 实现 kNN 算法 。 


kNN 算法 代码 


1: scala>val trainSet =sc.textFile("inputFilel.csv").map (line => { 
| val datas = line.split (" ") 
| (datas (0), datas (1), datas (2), datas (3), datas (4), datas (5)))) 
trainSet: org.apache.spark.rdd.RDD[(String, String, String, String, 
String, String)] -MapPartitionsRDD[2]at map at <console>:21 
2: scala? val bcTrainSet - sc.broadcast (trainSet collect ()) 
bcTrainSet: org.apache.spark.broadcast.Broadcast [Array [(String, 
String, String, String, String, String)]]- Broadcast (2) 
3: scala»? var bcK =sc.broadcast (3) 
bcK: org.apache.spark.broadcast.Broadcast [Int] - Broadcast (3) 
4: scala? val testSet -sc.textFile("inputFile2.csv") 
testSet: org. apache. spark. rdd. RDD [String] - inputFile2 
MapPartitionsRDD[4]at textFile at <console>:21 
5: scala» val resultSet =testSet .map(line => { 
| val datas = line.split ("") 
| val x -datas(0).toDouble 
| val y 2» datas (1) .toDouble 
| val z =datas (2) .toDouble 
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1valt=datas (3) .toDouble 
val s -datas(4).toDouble 
val trainDatas = bcTrainSet .value 
| var set = Set [Tuple7 [Double, Double, Double, Double, Double, 
Double, String]]() 
trainDatas. foreach (trainData => { 
val tx =trainData._2.toDouble 
val ty -trainData. 3.toDouble 
val tz -trainData. 4.toDouble 
val tt -trainData. 5.toDouble 
val ts -trainData. 6.toDouble 
val distance =Math.sqrt (Math.pow(x-tx,2) + Math.pow(y -ty, 2) 
+ Math.pow(z -tz, 2) + Math.pow(t -tt, 2) + Math.pow(s -ts,2)) 
set «-Tuple7 (x, y, Z, t, S, distance, trainData. 1) 
}) 
val list =set.toList 
val sortList =list.sortBy (item => item. 6) 
sortList .foreach (item =>print1n (item) ) 
var categoryCountMap -Map[String, Int] () 
val k =beK.value 
for (i <-0 to (k-1)) { 
val category =sortList (i). 7 
val count = categoryCountMap.getOrElse (category, 0) + 1 
categoryCountMap += (category -> count) 
) 
var rCategory ="" 
var maxCount =0 
categoryCountMap .foreach (item => { 
if (item. 2.toInt > maxCount) ( 
maxCount -item. 2.toInt 
rCategory -item. 1 
) 
» 
("Test sample",x, y, x, t, Ss, "Test result",rCategory) 
» 
resultSet: org. apache. spark. rdd. RDD [(String, Double, Double, 
Double, Double, Double, String, String)] - MapPartitionsRDD[5]at map at < 
console >:33 
6: scala>resultSet .saveAsTextFile("outputFile") 





代码 的 执行 过 程 如 图 5-9 所 示 。 算 法 的 整体 设计 思想 是 将 需要 分 类 的 数据 集 
inputFile2 拆 分 成 不 同 的 数据 子 集 , 然 后 对 在 不 同 的 计算 节点 上 并 行 的 不 同 数据 子 集 
进行 分 类 。 代 码 的 第 1 行使 用 textFile 读 取 输入 文件 inputFilel. csv, 然 后 调用 map 
算 子 将 每 一 条 记录 用 空格 分 割 ,最终 map 算 子 将 inputFilel. csv 中 的 每 一 行 差 分 成 6 
列 值 存 和 人 trainSet 中 。 代 码 第 2 行 调用 broadcast 将 trainSet 广播 到 各 个 计算 节点 。 
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代码 第 3 行 设置 kNN 算法 中 的 k 值 并 将 其 广播 到 各 个 计算 节点 。 代 码 第 4 行使 用 
textFile 读 取 输入 文件 inputFile2. csv 存 和 人 testSet 中 。 代 码 第 5 行 对 testSet 使 用 map 
算 子 ,对 testSet 中 的 每 条 记录 进行 分 类 判断 ,在 map 算 子 内 首先 会 计算 每 一 条 记录 
与 trainSet 中 各 个 记录 的 距离 ,然后 将 计算 的 距离 进行 排序 ,再 根据 设置 的 k 值 选取 
与 该 记录 距离 最 小 的 前 k 个 已 知 分 类 记录 ,最 后 统计 这 k 个 已 知 分 类 记录 所 属 的 类 
别 数 和 ,最 后 将 该 条 记录 分 配给 类 别 数 最 高 的 类 。 代 码 第 6 行将 最 终结 果 进 行 
存储 。 
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E LENT on Sill esee 试 结果 ,b) - 
f 122-3190 15 | je 1 
CRI ER 1-1-1-1- | ELL Le 
[pup 4 L 
J $ ===== $ © 
HDFS sc.textFile() map sc.saveAsTextFile() 


图 5-9 KNN 算法 过 程 


5.10 朴素 贝 叶 斯 分 类 


在 数据 挖掘 和 机 器 学 习 领 域 ,基于 贝 叶 斯 理论 的 数据 分 析 方 法 占据 了 很 重要 的 
位 置 。 其 中 一 种 非常 简单 但 是 很 有 效 的 分 类 算法 就 是 朴素 贝 叶 斯 分 类 算法 。 朴 
素 贝 叶 斯 分 类 算法 属于 线性 分 类 方法 ,是 基于 贝 叶 斯 定理 的 分 类 算法 。 贝 叶 斯 定理 
的 概率 公式 可 用 如 下 公式 表示 : 


p(A1 B) = (52) 


公式 中 p(4) 是 4 的 先 验 概率 或 边缘 概率 。 之 所 以 称 为 " 先 验 "是 因为 它 不 考虑 
任何 如 方面 的 因素 。P(B14) 是 已 知 4 发生 后 B 的 条 件 概率 。P(418) 是 已 知 B 发 
生 后 A 的 条 件 概 率 ,被 称 作 A 的 后 验 概率 。P(B) 是 B 的 先 验 概率 或 边缘 概率 ,也 作 
标准 化 常量 。 贝 叶 斯 定理 的 基本 思想 就 是 在 已 知 先 验 概率 p CA) 和 条 件 概率 PCBI 
4) 的 基础 上 ,对 4 发生 的 概率 进行 修正 ,得 到 后 验 概率 P(418) ,最 后 再 利用 修正 后 
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的 概率 PCAVB) 做 出 最 优 决策 。 在 实际 分 类 应 用 中 ,通常 4 代表 分 类 值 集合 ,B 代表 
属性 值 集合 ,各 个 分 类 值 对 应 的 PCB) 的 概率 都 是 一 样 的 (反映 了 属性 的 本 质 自然 规 
律 ) ,所 以 通常 可 以 去 掉 PCB) , 即 只 需要 计算 P(B14)P(4) 的 大 小 即 可 。 

“朴素 贝 叶 斯 ”分 类 之 所 以 被 称 为 “朴素 ”的 贝 叶 斯 是 因为 该 分 类 器 在 应 用 贝 叶 
斯 理论 时 ,基于 各 属性 之 间 具 有 独立 性 这 个 假设 。 我 们 知道 ,很 多 情况 下 ,属性 和 属 
性 之 间 是 有 关联 的 ,而 朴素 贝 叶 斯 方法 直接 忽略 掉 了 这 种 关联 性 ,使 问题 变 得 简单 
化 ,这 也 是 其 "朴素 "的 原因 。 简 化 后 的 分 类 值 集合 4 中 的 每 一 个 值 4, 的 朴素 贝 叶 
斯 公式 可 以 表示 为 : P(4,1B) =P(B114,)P(B,14,)…P( B14,)P(4,)。 在 公式 中 
P(B,1A,) PCB,A,) -PCB,IA,) =P(B14,) 的 转化 正 是 应 用 了 贝 叶 斯 的 “朴素 ” 特 
性 ,将 属性 值 中 展开 成 各 个 独立 属性 值 的 条 件 概率 相 乘 。 

朴素 贝 叶 斯 分 类 器 就 是 计算 样本 点 在 具有 :个 属性 (B,,B,,…,B,) 的 情况 
下 ,对 应 于 分 类 集合 4 = (41 ,4,… ,4,) 中 所 有 值 的 朴素 贝 叶 斯 概率 值 ,计算 得 到 各 
个 概率 值 p(41) ,p(4,),…,p(4,) 后 ,比较 各 个 概率 值 大 小 ,将 p(41),p(4,),…， 
P(4,) 中 的 最 大 值 作为 样本 点 的 分 类 值 。 尽 管 朴素 贝 叶 斯 分 类 器 带 着 一 些 朴素 思想 
和 过 于 简单 化 的 假设 ,但 朴素 贝 叶 斯 分 类 器 在 很 多 复杂 的 现实 情形 中 仍 能 够 取得 相 
当 好 的 效果 。 

下 面 我 们 用 一 个 简单 的 实例 来 说 明 如 何 使 用 Spark 来 进行 朴素 贝 叶 斯 算法 。 算 
法 原始 数据 的 输入 内 容 如 下 。 

输入 数据 1: 





inputFilel.csv 


Sunny Hot High Weak No 

Sunny Hot High Strong No 
Overcast Hot High Weak Yes 

Rain Mild High Weak Yes 

Rain Cool Normal Weak Yes 

Rain Cool Normal Strong No 
Overcast Cool Normal Strong Yes 
Sunny Mild High Weak No 

Sunny Cool Normal Weak Yes 

Rain Mild Normal Weak Yes 

Sunny Mild Normal Strong Yes 
Overcast Mild Normal Strong Yes 
Overcast Hot Normal Weak Yes 
Rain Mild High Strong No 
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输入 数据 2: 


inputFile2.csv 


Overcast Mild Normal Weak 
Sunny Mild Normal Weak 
Rain Hot High Strong 


输入 包含 两 个 文件 ,inputFilel. csv 中 包含 了 外 部 环境 天 气 情况 ,其 特征 属性 值 
有 天 气 .温度 湿度、 风力 4 列 。inputFilel. csv 中 最 后 一 列 是 某 人 是 否 出 行 的 记录 。 
我 们 需要 根据 inputFilel. csv 训练 一 个 判断 某 人 是 否 出 行 的 朴素 贝 叶 斯 分 类 器 。 当 
给 定 inputFile2. csv 时 ,根据 inputFile2. csv 中 给 定 的 外 部 环境 天 气 情 况 判 断 某 人 是 
否 出 行 。 我 们 最 终 希 望 得 到 的 输出 结果 如 下 。 


outputFile.csv 





Overcast Mild Normal Weak Yes 
Sunny Mild Normal Weak Yes 
Rain Hot High Strong No 


为 此 ,我 们 编写 了 以 下 的 代码 以 实现 朴素 贝 叶 斯 分 类 。 


朴素 贝 叶 斯 分 类 器 代码 


1 import org.apache.spark.(SparkConf, SparkContext } 

2 import org.apache.spark.SparkContext ._ 

3s import scala.collection.mutable.(ArrayBuffer, HashMap) 

4: object NaiveBeyes ( 

5 def main (args:Array [String]) { 

6 val conf =new SparkConf () .setAppName ("Naive Bayes") 
7 val sc =new SparkContext (conf) 

8: val file =sc.textFile("inputFilel.csv", 2) 

Se val pair =file.flatMap (line =>{ 


10; val tokens :Array [String] -line.split (" ") 

EET. val classificationIndex -tokens.length -1 

125 val theClassification:String = tokens (classificationIndex) 
13: var result =new Array [(String,String)](classificationIndex +1) 
14: var i =0 

152 while(i <classificationIndex) { 

16: result (i) = ((tokens (i) ,theClassification) ) 

17: i+=1 

18: } 


19: result (i) = ("CLASS",theClassification) 
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20 : 
24s 
22: 
23: 
24: 
25: 
26: 
27: 
28: 
29: 
30: 
314 
32: 
33% 
34: 
35s 
36: 
ITs 
38: 
39: 
40: 
41: 
42: 
43: 
44: 
45: 
46: 
47: 
48: 
49: 
50: 
51: 
52: 
536 
54: 
55€ 
56 : 
57: 
58: 
59; 
60: 
61: 
62: 
63: 
64: 
65: 
66: 
67: 
68: 


result 
} 
).map (pair => (pair, 1)) 
val counts =pair.reduceByKey ( «4 ) 
val countsAsMap = counts .collectAsMap () 
var CLASSIFICATION = new ArrayBuf fer [String] () 
var PT - new HashMap [(String,String) ,Double] 
for ((key,value)< - count sAsMap) { 
val classification =key._2 
if (key ._1 == "CLASS")( 
CLASSIFICATION +=classification 
PT (key) - value 
} 
else{ 
val sum = countsAsMap (("CLASS",key._2)) 
if (value --null)( 
PT (key) =0 .0 
} 
else{ 
PT (key) =value.toDouble/sum.toDouble 
) 


} 
var trainingSize -0.0 
for (classification <- CLASSIFICATION)( 
trainingSize += PT(("CLASS",classification)) 
; 
for (classification <- CLASSIFICATION) ( 
PT (("CLASS",classification))/ =trainingSize 

} 
Val PT2 save =PT.toArray 
val ptRDD - sc.parallelize(PT2save, 2) 
ptRDD.saveAsTextFile("PT") 
val CLFRDD = sc .parallelize (CLASSIFICATION, 1) 
CLFRDD.saveAsTextFile ("CLASSIFICATION") 
val testdata -sc.textFile("inputFile2.csv", 1) 
val broadcastPT - sc.broadcast (PT) 
val broadcastCLASS = sc .broadcast (CLASSIFICATION) 
val classified -testdata map (line =>{ 

val attributes:Array [String] =line.split(" ") 

val PT -broadcastPT.value 

val CLASS = broadcastCLASS.value 

var selectedCLASS:String -null 

var maxProbility :Double =0 

for (aCLASS < - CLASS) ( 

var postprob:Double - PT(("CLASS",aCLASS)) 
for(i«-0 until attributes.length)( 
var prob:Double =0 .0 
if (PT.contains ((attributes (i),aCLASS)))( 
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69 : prob =PT((attributes (i),aCLASS)) 

70: println("P ("attributes (i) +"|"+aCLASS +") "+prob) 
TL: } 

725 postprob * -prob 

1735 } 

74: if (selectedCLASS --null)( 

75: SelectedCLASS - aCLASS 

76: maxProbility -postprob 

TI: ) 

78: if (postprob >maxProbility) { 

792 SelectedCLASS - aCLASS 

80: maxProbility -postprob 

81: ) 

82: ) 

83: (line,selectedCLASS) 

84: }) 

85: classified.map(x =>x.1 +" "+x._2)saveAsTextFile("outputFile") 
86: } 

87: j 


代码 的 执行 过 程 如 图 5-10 所 示 。 代 码 第 8 行使 用 sparkContext 类 的 textFile 函数 
读 取 inputFilel. csv 文件 生成 HadoopRDD。 接 下 来 算法 需要 计算 inputFilel. csv 文件 中 
每 个 属性 在 类 别 " 是否 出 行 "下 的 条 件 概率 P(B, A) PCBSIA) -PCB, IA) (B, = X 
A ABUSE ,湿度 风力) 以 及 每 个 类 别 的 先 验 概率 P(4,) (A, =yes no) 。P(B。14,) 等 于 
(B, 4) 出 现 次 数 除 以 4, 的 出 现 次 数 。 而 P(4, ) 等 于 4, 的 出 现 次 数 除 以 实验 样本 总 
数 A, (A, =yes no) 。 因 此 算法 需要 统计 ( B, An) 出 现 次 数 以 及 4, 的 出 现 次 数 。 计 
算 (B。,4,) 出 现 次 数 以 及 4, 的 出 现 次 数 的 过 程 与 经 典 的 WordCount 程序 十 分 类 似 ,一 
共 分 为 两 步 。 第 一 步 ,我 们 将 每 一 条 的 样本 记录 进行 拆 分 , 拆 分 成 属性 与 类 别 的 组 合 
对 即 (B,。,4,) ,代码 9 ~21 行使 用 flatMap 算 子 完 成 了 上 述 功能 ,在 fatMap 算 子 内 部 首 
先 将 每 行 样本 记录 以 空格 分 割 ,然后 将 每 行 前 4 列 的 属性 值 分 别 与 第 5 列 的 类 别 值 进 
行 组 合 , 生 成 属性 与 类 别 的 组 合 对 。 第 二 步 ,为 了 统计 类 别 4, 的 出 现 次 数 ,代码 19 ~ 
20 行 对 每 行 类 别 列 做 了 特殊 处 理 ,将 每 行 的 类 别 和 字符 串 “CLASS "组 合成 (CLASS ， 
4,) 对 ,其 目的 就 是 在 后 续 的 程序 里 方便 对 类 别 的 出 现 次 数 求 和 。flatMap 算 子 最 后 会 
将 每 一 个 属性 与 类 别 的 组 合 对 扁平 化 为 独立 的 单元 。 和 WordCount 程序 一 样 ,代码 第 
22 行将 flatMap 输出 的 每 一 独立 单元 都 生成 一 个 pairRDD。 其 中 Key 为 属性 与 类 别 组 
合 对 (或 者 是 ”CLASS "与 类 别 组 合 对 ) , Value 值 为 1 ,表示 该 组 合 对 在 样本 记录 中 出 现 
过 一 次 。 代 码 第 23 行使 用 reduceByKey 算 子 统计 每 一 个 属性 与 类 别 组 合 对 的 次 数 以 
及 每 一 类 别 的 次 数 。 代 码 第 24 行 把 上 一 步 的 统计 结果 执行 collectAsMap 算 子 ,将 统计 
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结果 取 回 本 地 , 存 人 Hashmap 中 (变量 名 为 countsAsMap ) 。 因 为 接 下 来 我 们 会 用 全 部 
的 统计 结果 来 计算 条 件 概率 和 先 验 概率 ,而 RDD 是 分 布 式 存储 在 不 同 计算 节点 上 的 ， 
为 了 得 到 全 部 的 统计 值 ,需要 把 数据 取 回 本 地 。 代 码 27 ~ 43 行 算法 在 本 地 计算 全 部 
的 条 件 概率 。 代 码 43 ~ 49 行 算法 在 本 地 计算 全 部 的 先 验 概率 值 。 代 码 50 ~ 52 行使 
用 parallelize 将 先 验 概率 值 重新 转化 为 RDD 并 使 用 saveAsTextFile 将 先 验 概率 存储 到 
HDFS 中 。 代 码 53 ~ 54 行 同 样 使 用 parallelize 和 saveAsTextFile 将 条 件 概 率 转 化 为 
RDD 存储 到 HDFS 中 。 

到 这 里 ,我 们 的 朴素 贝 叶 斯 分 类 器 已 经 训练 完成 , 接 下 来 就 是 用 我 们 训练 的 分 类 
器 来 预测 新 数据 了 。 代 码 第 55 行使 用 textFile 读 入 另 一 个 需要 分 类 的 输入 数据 
inputFile2. csv。 代 码 56 ~57 行将 HDFS 上 存储 的 先 验 概率 文件 和 条 件 概率 文件 作为 
广播 数据 分 发 到 各 个 计算 节点 。 代 码 58 ~ 84 行使 用 map 算 子 计算 输入 数据 
inputFile2. csv 中 每 一 条 记录 的 后 验 概率 P( B114,)P(B,14,)…P(B。14,)P(4,), 并 根 
据 概率 值 进行 分 类 。 最 后 在 代码 第 85 行将 结果 进行 存储 。 


HadoopRDD. ShuffledRDD 
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至 此 ,我 们 不 仅 已 经 了 解 了 Spark 的 系统 结构 和 运行 原理 ,还 通过 大 量 的 实例 代码 
掌握 了 如 何 使 用 Spark 脚本 对 数据 进行 简单 的 处 理 和 编写 Spark 程序 实现 复杂 的 算 
法 。 我 们 利用 简洁 高 效 的 Scala 语言 编写 的 程序 ,会 由 Spark 执行 引擎 遵循 Job、Stage 、 
Task 的 顺序 生成 并 行 执行 的 任务 在 集群 上 自动 运行 。 可 以 说 ,Spark 为 我 们 完成 了 程 
序 运 行 并 屏蔽 了 实现 分 布 式 并 行程 序 的 底层 细节 。 但 是 ,由 于 分 布 式 并 行 和 集群 运行 
环境 的 的 复杂 性 ,Spark 的 默认 策略 并 不 一 定 能 帮助 我 们 实现 算法 和 程序 的 最 优化 。 
因此 ,在 这 一 章 让 我 们 一 起 深入 Spark 内 部 ,探寻 如 何 利用 Spark 的 一 些 高 级 特性 ,使 
我 们 的 算法 和 程序 能 更 加 优化 和 高 效 。 需 要 说 明 的 是 ,Spark 的 API 及 生态 系统 都 十 
分 丰富 和 强大 ,很 难 在 有 限 的 篇 幅 中 盖 述 太 多 的 Spark 使 用 技巧 。 在 本 章 中 ,我 们 尽力 
将 我 们 在 实践 过 程 中 积累 的 重要 环节 和 方面 进行 总 结 ,为 大 家 优化 Spark 程序 提供 帮 
助 和 启发 。 


6.1 合理 分 配 资源 


由 于 Spark 程序 运行 在 由 多 个 服务 器 构成 的 集群 中 ,需要 通过 外 部 的 集群 资源 管 
理 框架 调用 服务 器 资源 。 因 此 ,掌握 集群 资源 调度 方式 并 在 此 基础 上 通过 配置 为 程序 
合理 分 配 资源 ,是 优化 Spark 程序 运行 性 能 的 首要 任务 。 当 前 存在 多 种 支持 Spark 程 
序 运行 的 资源 管理 框架 ,例如 YARN Mesos 等 。 这 些 系 统 针对 Spark 程序 的 资源 分 配 
有 稍 许 差别 ,但 在 资源 分 配 的 优化 思路 上 是 一 致 的 。 在 这 里 我 们 以 Spark on YARN 为 
例 来 进行 后 续 的 讨论 。 

在 YARN 集群 中 作业 运行 模式 分 为 yam-client 和 yarn-cluster 两 种 模式 ,两 者 在 资 
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源 分 配方 式 上 差别 不 大 ,唯一 的 重要 区 别 是 yam-cluster 模式 中 主 节点 需要 执行 Driver 
进程 。YARN 采用 Master/Slave 模式 构建 和 管理 整个 架构 , 其 中 Master. 节点 为 
ResourceManager, 它 负责 对 整个 集群 的 资源 进行 统一 管理 分 配 和 作业 运行 调度 。Slave 
节点 为 NodeManager, 它 负责 管理 单一 节点 上 的 资源 并 在 该 节点 上 启动 Container 运行 
任务 。 各 个 NodeManager 会 定期 向 ResourceManager 汇报 运行 信息 。 在 Spark on YARN 
运行 方式 中 ,生产 环境 一 般 使 用 yarn-cluster 模式 。 该 模式 下 ,用 户 通 过 客户 端 提 交 一 
个 Spark 程序 请 求 到 YARN 的 ResourceManager 后 , ResourceManager 会 为 该 应 用 在 某 
个 NodeManager 中 启动 一 个 Container 用 于 运行 该 程序 对 应 的 Application Master。 
Application Master 主要 负责 与 ResourceManager 通信 申请 资源 并 驱动 应 用 执行 。 
ResourceManager 接收 到 Application Master 的 请 求 后 为 其 分 配 Container。 然 后 
Container 会 启动 一 个 Spark Executor 来 执行 后 续 一 系列 的 Task ,该 过 程 如 图 6-1 所 示 。 
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6-1 yarn-cluster 模式 下 的 Spark 程序 执行 流程 
需要 说 明 的 是 ,Spark 程序 运行 需要 调用 的 资源 包括 CPU .内存 存储 和 网 络 ,其 中 
存储 和 网 络 这 类 资源 与 具体 存储 数据 的 文件 系统 、 网 络 环境 关系 较为 紧密 ,在 Spark HE 
架 中 通过 参数 对 这 两 类 资源 进行 优化 的 手段 不 多 ,因此 在 这 里 我 们 主要 关注 对 CPU 和 
内 存 资源 的 分 配 和 优化 。 下 面 我 们 分 别 从 CPU 资源 和 内 存 资 源 两 个 方面 了 解 一 下 优 
化 手段 。 
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V CPU 资源 优化 
在 对 Spark on YARN 工作 方式 下 的 Spark 程序 进行 CPU 配置 优化 时 ,主要 是 针对 
两 个 组 件 ,Driver 和 Executor。 针 对 Driver 的 优化 比较 简单 ,可 以 通过 配置 参数 driver- 
cores 为 Driver 分 配合 理 的 CPU 核 数 ,在 配置 的 时 候 注 意 兼 顾 Driver 和 Executor 的 负载 
差异 即 可 。 
针对 Executor ,我 们 可 以 通过 以 下 方式 优化 配置 。 
-在 启动 Spark 程序 时 可 以 通过 Spark-shell 命令 设置 num-executors 来 指定 启动 的 
Executor 数量 ,如 果 是 yarn-client 模式 则 还 可 以 通过 配置 spark-environment 中 的 
spark. executor. instances 配置 参数 来 指定 ,默认 Executor 数 为 2。 
-每 个 Executor 使 用 的 CPU 核 数 可 以 通过 Spark-shell 命令 设置 executor-cores 参 
数 来 指定 ,或 者 是 通过 配置 spark-environment 中 的 spark. executor. cores 参数 来 
指定 ,默认 是 1 个 核 。 
-需要 注意 YARN 中 的 参数 yarn. nodemanager. resource. cpu-vcores ,该 参数 用 于 设 
置 在 某 个 Slave 节点 中 所 有 Container 可 以 使 用 的 CPU 核 数 。 从 Spark1. 3 开始 
支持 通过 配置 Spark. dynamicAllocation. enabled 属性 在 Spark on YARN 模式 下 
动态 分 配 Executor。 不 过 这 个 属性 在 Spark 的 standalone 和 Mesos 模式 下 还 没 
有 作用 。 
- 当 使 用 HDFS 作为 Spark 程序 的 文件 存储 系统 时 ,由 于 HDFS 在 存在 大 量 客户 
端 线 程 时 ,容易 在 高 并 发 请 求 时 出 现 性 能 问题 ,因此 ,为 每 个 Executor 配置 的 
CPU 核 数 建议 不 超过 5 个 。 当 然 ,我 们 也 不 能 将 每 个 Executor 的 CPU 核 数 设置 
太 小 ,否则 无 法 发 挥 Executor 可 以 同时 运行 多 个 任务 的 优点 ,同时 会 影响 广播 
变量 使 用 时 的 性 能 。 
V 内 存 资 源 优化 
与 CPU 核 数 的 配置 数量 只 会 影响 Spark 程序 执行 的 快慢 相 比 ,由 于 Spark 的 计算 
模式 极度 依赖 分 布 式 内 存 对 象 ,内 存 太 小 的 配置 不 仅 会 影响 性 能 ,还 有 可 能 在 配置 不 
当时 直接 导致 Spark 程序 执行 失败 。 因 此 ,在 为 处 理 大 量 数据 的 Spark 程序 进行 配置 
时 ,尤其 要 重点 关注 内 存 的 分 配 。 在 Spark on YARN 模式 下 ,与 内 存 资源 分 配 相关 的 
参数 含义、 使 用 方法 和 默认 值 如 表 6-1 所 示 。 
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表 6-1 Spark on YARN 内 存 相关 参数 说 明 



































属性 说 明 配置 方法 默认 值 
Die Driver 进程 使 用 的 内 存 大 小 (在 | 配置 参数 spark. driver. memory 
内 存 Spark on YARN 中 Driver 对 应 为 | yam-client 模式 下 命令 参数 1GB 
YARN 中 的 Application Master) 一 一 driver-memory 
yam-cluster 模式 下 Driver 使 用 的 
Driver 堆 外 内 存 大 小 (Driver 内 存 x 比 | 配 置 参数 spark. yam. 最 小 为 
堆 外 内 存 例 , 比 例 因 Spark 版 本 不 同 而 不 | driver. memoryOverhead 384 MB 
同 ) 
-— 配置 参数 
AM pyzz | APplication Master 使 用 的 内 存 | app: mapreduce. am. |  1536MB 
大 小 
resource. mb 
AM 内 存 client 模式 时 , Application Master | 配置 参数 spark. yam. SioMB 
( client) 的 内 存 大 小 am. memory 
yam-client 模式 F Application 
AM Master 使 用 的 堆 外 内 存 大 小 配置 参数 spark. yam. 最 小 为 
堆 外 内 存 | (AM 内 存 x 比例 ,比例 因 Spark | am. memoryOverhead 384 MB 
版 本 不 同 而 不 同 ) 
Node Nanager | 每 个 Nodemanager 可 以 使 用 的 内 | 配置 参数 yarn. nodemanager. 
8GB 
内 存 存 大 小 resource. memory-mb 
配 置 5 数 spa. 
Executor 内 存 | Executor 使 用 的 内 存 大 小 executor. memory 1GB 
命令 参数 executor-memory 
Executor Executor 使 用 的 堆 外 内 存 大 小 配置 参数 spark. yam. 最 小 为 
堆 外 内 存 pn salad des ae Overhead 384 MB 
Spark 版 本 不 同 而 不 同 ) ind 
Container 一 个 container 能 够 申请 的 最 小 | 配置 参 Be yarn. scheduler. 1GB 
最 小 内 存 。 | 内 存 大 小 minimum-allocation-mb 
Container 一 个 Container 能 够 申请 的 最 大 | 配置 参数 yarn. scheduler. 8CB 
最 大 内 存 内 存 maximum-allocation-mb 
Container Container 申请 资源 增加 的 最 小 | 配置 参数 yarn. scheduler. 512MB 
内 存 增 量 单位 值 increment-allocation-mb (CDH) 
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这 些 参 数 中 ,Executor 分 配 的 内 存 大 小 非常 重要 ,其 影响 范围 较为 广泛 ,对 包括 
cache group join 在 内 的 很 多 算 子 性 能 有 很 大 的 影响 。 我 们 也 需要 关注 YARN 里 面 的 
资源 分 配 ,如 yam. nodemanager. resource. memory-mb 参数 的 值 , 它 控制 一 个 节点 上 所 有 
Container 可 用 的 内 存 总 和 。 同 时 ,由 于 JVM 在 运行 时 会 使 用 堆 外 内 存 , 因 此 , 堆 外 内 存 
的 大 小 也 是 一 个 需要 关注 的 重要 配置 项 。 但 是 ,如 果 为 JVM 配置 过 大 的 内 存 也 可 能 导 
致 过 多 的 垃圾 回收 操作 ,从 而 影响 程序 性 能 ,从 我 们 的 经 验 来 看 为 每 个 Executor 配置 
的 内 存 大 小 不 要 超过 64CB。 

在 Spark on YARN 的 Cluster 模式 下 , NodeManager 的 内 存 属性 层级 如 图 6-2 所 示 。 
在 此 模式 下 Application Master 是 一 个 不 执行 Executor 的 Container, 它 需 要 运行 Spark 
程序 的 Driver 进程 ,因此 需要 为 Driver 分 配 相 应 的 内 存 和 CPU ,在 Client 模式 下 则 
不 用 。 


Yarn.nodemanager.resource.memory-mb 
(Nodemanager 可 以 使 用 的 内 存 大 小 ) 





AM Container Executor Container 





Spark.driver.memoryOverhead 


(AM 使 用 的 堆 外 内 存 大 小 ) 


Spark.yarn.executor.memoryOverhead 
(Executor 使 用 的 堆 外 内 存 大 小 ) Executor 


Container 





Spark.executor.memory 


Spark.driver.memory (Executor 使 用 的 内 存 ) 


(AM 能 够 申请 的 最 大 内 存 ) 









































6-2 Spark on Yam 在 Cluster 模式 下 的 内 存 层级 属性 

在 Spark on YARN 的 Cluster 模式 下 ,我 们 可 以 通过 命令 行 参 数 num-executors , 
executor-cores , executor-memory 和 配置 参数 spark. driver. memory 这 4 个 参数 的 不 同 值 
的 组 合 尝试 设置 最 为 合理 的 资源 配置 。 我 们 构建 了 一 个 示例 实验 环境 来 说 明 这 些 参 
数 不 同 配置 情况 下 资源 分 配 的 情况 。 假 设 我 们 的 集群 中 有 16 个 节点 ,每 个 节点 有 
64GB 内 存 ,2 颗 CPU ,每 颗 CPU 具有 16 个 逻辑 核 。 由 于 该 集群 要 被 多 个 项 目 组 共享 ， 
因此 我 们 需要 根据 Spark 程序 的 不 同类 型 ,调整 CPU 和 内 存 资 源 的 配置 比例 来 合理 分 
配 资源 。 例 如 ,我 们 应 为 计算 密集 型 程序 配置 较 多 的 CPU 资源 ,为 数据 密集 型 程序 配 
置 较 多 的 内 存 资源 。 我 们 试验 性 地 在 该 集群 中 配置 了 不 同 的 参数 值 ,并 通过 YARN 和 
Spark 的 Web 监控 页 面 观察 资源 分 配 结果 ,如 表 6-2 所 示 。 
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表 6-2 不 同 参数 配置 的 资源 分 配 情况 









































i 实验 编号 1 2 3 4 5 
参数 说 明 
E 
xecutor 数量 8 8 8 8 4 
— —-num-executors 
Ex CPU 
Spark ecutor 的 CPU 核 数 4 4 4 8 4 
x — —-—executor-cores 
-submit Executor 内 存 
T 
参数 设 加 EN 4GB AGB 8GB 4GB 4GB 
— —-executor-memory 
Driver( AM 
ver( AM) ATF 26B 4GB 2GB 26B 2GB 
spark. driver. memory 
实际 启动 Container 数 9 9 9 9 5 
和 全 2560MB | 4608MB | 2560MB | 2560MB | 2560MB 
分 配 的 内 存 
实际 运 每 个 Executor 
. 4608MB | 4608MB | 9216MB | 4608MB | 4608MB 
行 效果 Container 分 配 的 内 存 
YARN 实际 分 配 内 存 39424MB | 41472MB | 76288MB | 39424MB | 20992MB 
Executor 最 大 可 用 Cache 内 存 | 2.1GB | 2.1GB | 4.1GB | 2.1GB | 2.1GB 
AM 最 大 可 用 Cache 983. IMB |1966. IMB | 983.1MB | 983. IMB | 983.1MB 











从 表 62 的 数据 我 们 可 以 看 到 ,集群 最 终 的 资源 分 配 情况 与 我 们 期 望 的 配置 参数 
有 一 定 区 别 ,我们 以 实验 1 为 例 来 解释 一 下 这 种 区 别 及 原因 。 

(1) 实际 启动 的 Container 数量 为 分 配 的 8 个 Executor 加 上 一 个 Application Master 
对 应 的 Container, 因 此 为 9 个 Container, HP Executor 对 应 的 Container 每 个 分 配 了 4 
个 CPU 核 数 ,运行 4 个 任务 。Application Master 的 Container 则 为 默认 的 1 个 CPU 核 。 

(2) Application Master 分 配 的 内 存 包 括 分 配 的 内 存 加 上 堆 外 内 存 大 小 , 堆 外 内 存 
根据 表 6-1 中 计算 公式 计算 为 384MB。 但 由 于 当前 集群 中 容器 内 存 增 量 单位 为 
512MB, 因 此 总 的 分 配 内 存 为 2CB +512MB =2560MB。 

(3) 和 Application Master 分 配 的 内 存 原 理 一 致 ,Executor Container 分 配 的 内 存 为 
4GB +512MB = 4608MB, 

(4) YARN 实际 分 配 内 存 为 8 个 Executor Container 分 配 的 内 存 与 Application 
Master 分 配 的 内 存 之 和 。 

(5) Executor 最 大 可 用 cache 内 存 的 大 小 可 以 从 Spark UI P“ Executor” 标签 下 的 
页 面 读 取 , 在 该 页 面 中 “Memory Used "一 列 中 右 侧 的 数字 即 为 Executor 最 大 可 用 Cache 
内 存 。 在 这 里 ,我 们 详细 解释 这 个 值 的 计算 方法 。 我 们 在 实验 中 对 每 个 Executor 分 配 
Y AGB 内 存 和 相应 的 堆 外 内 存 。 但 是 在 程序 运行 时 ,程序 运行 环境 和 其 他 相关 的 系统 
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组 件 会 消耗 掉 一 部 分 的 内 存 ,扣除 这 部 分 内 存 剩 下 的 才 是 可 用 的 内 存 。 为 了 展示 这 一 
数据 ,我 们 启动 一 个 占用 4GB 内 存 的 Scala 运行 环境 并 检查 可 用 内 存 ,如 下 面 的 代码 所 
示 。 从 结果 中 可 以 看 出 该 环境 中 最 大 的 可 用 内 存 为 4116709376Byte, 即 3926MB。 


使 用 Shell 命令 检查 可 用 内 存 


1: $ scala - J - Xms4G - J - Xmx4G 
welcome to scala vesion 2.10.4 (OpenJDK 64 -Bit Server VM, Java 1.7.0 45). 
Type in expressions to have them evaluated. 
Type :help for more information 
2: scala? Runtime.getRuntime.maxMemory 
res0: Long -4116709376 


另外 ,我 们 阅读 spark 源码 中 用 于 获取 最 大 可 用 Cache 内 存 的 源码 ,该 源码 所 在 的 
文件 为 spark/ core/ src/ main/ scala/ org/ apache/ spark/ storage/ BlockManager. scala, 
该 段 源 码 如 下 所 示 。 


获取 最 大 可 用 cache 内 存 源 码 


1: private def getMaxMemory (conf: SparkConf): Long = ( 

P val memoryFraction - conf.getDouble ("spark.sotrage.memory Fraction", 
0.6) 

3s val safetyFraction = conf .getDouble ("spark.storage.safety Fraction", 
0.9) 

4: (Runtime.getRuntime .maxMemory * memoryFraction * safety Fraction). 
toLong 

Se j 


我 们 可 以 计算 出 当前 Executor 最 大 可 用 cache 内 存 为 3926MB x0.6 x 0.9 = 
2120. 04MB ,也 就 是 我 们 从 spark UI 中 看 到 的 2.1GB。 需 要 说 明 的 是 ,这 个 最 大 可 用 
Cache 内 存 并 不 是 专门 为 Cache 保留 的 内 存 , 而 只 是 Cache 操作 可 以 使 用 内 存 的 一 个 
上 限 。 分 配给 Executor 可 以 用 的 内 存 包 括 堆 内 存 和 堆 外 内 存 ,最 大 可 用 的 堆 内 存 就 是 
我 们 在 spark. executor. memory 配置 参数 和 executor. memory 命令 行 参数 中 设置 的 值 
(实验 1 中 即 为 4CB) ,而 最 大 可 用 cache 内 存 则 是 通过 参数 executor. memory , spark. 
storage. memory Fraction (0. 6) 和 spark. storage. safetyFraction (0.9) 算 出 来 的 Cache 操作 
可 以 使 用 的 最 大 堆 内 存 , 也 就 是 被 cache 的 RDD 可 以 使 用 的 堆 内 存 。 如 果 没 有 任何 
RDD 被 cache ,那么 Executor 可 以 任意 使 用 堆 内 存 直 到 其 超过 最 大 堆 内 存 限制 , 即 
executor. memory。 如 果 有 RDD 被 cache 了 ,并 且 总 大 小 超过 了 最 大 可 用 Cache Py f£, 
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那么 被 cache 的 RDD 中 最 老 的 会 被 删 掉 , 然后 被 新 的 替代 。spark. storage. 
memoryFraction 参数 就 是 为 了 防止 那些 被 cache 的 RDD 把 堆 内 存 耗 光 导 致 Executor 无 
法 创建 新 对 象 。Spark 里 面 还 有 另外 一 个 参数 是 spark. shuffle. memoryFraction ( 默认 值 
为 0.2) ,是 Shuffle 的 时 候 可 以 使 用 的 最 大 堆 内 存 , 它 跟 spark. storage. memoryFraction 
是 一 个 道理 ,用 来 限制 Shuffle 时 可 以 使 用 的 最 大 堆 内 存 , 默 认 情况 下 ,即使 Shuffle 和 
Cache 都 用 达到 限制 的 最 大 值 (0. 8 x executor. memory) ,那么 也 还 留 有 0. 2 x executor. 
memory 的 堆 内 存 空 间 给 Executor 创建 新 对 象 。 

(6) AM 最 大 可 用 Cache 内 存 同样 取 自 spark UL ff] * Executor” 标签 页 面 * Memory 
Used "一 列 , 它 是 AM 中 Driver 进程 最 大 可 用 Cache 内 存 。 它 的 计算 方式 和 Executor 最 
大 可 用 内 存 计 算 方式 是 一 样 的 ,由 于 我 们 的 应 用 一 般 不 会 把 RDD 在 Driver 上 进行 计 
算 ( 只 有 一 些 很 简单 的 操作 ,如 first\take 等 ,在 设置 了 允许 作业 在 本 地 运行 的 参数 后 ， 
在 Driver 上 才能 计算 RDD) ,所 以 Driver 最 大 可 用 Cache 内 存 (实验 1 中 即 为 983. 1M) 
实际 上 没什么 意义 ,真正 有 意义 的 是 在 运行 应 用 时 指定 的 driver-memory 参数 , 它 才 是 
Driver 可 以 使 用 的 最 大 堆 内 存 。 

综 上 所 述 ,我 们 在 为 每 个 应 用 分 配 资源 时 ,需要 考虑 自己 应 用 对 不 同 资源 的 需求 
比例 进行 合理 的 分 配 ,防止 资源 浪费 。 同 时 需要 在 分 配 内 存 时 对 系统 设置 的 堆 外 内 存 
和 最 大 可 用 内 存 进行 充分 考虑 ,防止 分 配 的 资源 过 小 影响 应 用 的 执行 。 
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我 们 都 知道 ,Spark 程序 是 运行 在 由 多 台 服 务 器 构成 的 集群 之 上 的 分 布 式 并 行程 
序 。 显 然 , 这 样 的 程序 在 运行 时 的 性 能 ,一 定 会 受到 程序 执行 的 并 行 度 与 集群 可 用 资 
源 是 否 匹配 的 影响 。 在 探讨 Spark 程序 并 行 度 与 集群 资源 关系 之 前 ,我 们 先 来 梳理 下 
影响 Spark 程序 在 集群 上 运行 性 能 的 一 些 基本 规则 (这 些 规则 我 们 在 Spark 原理 章节 
部 分 已 有 介绍 ) 。 

V Spark 中 的 核心 数据 结构 RDD 是 由 一 系列 的 分 区 构成 的 ,每 个 分 区 包含 一 个 

RDD 中 的 部 分 数据 ; 

V 在 Spark 调度 和 执行 计算 任务 ( Task) 时 ,会 为 RDD 的 每 个 分 区 创建 一 个 Task; 

V 默认 情况 下 ,Spark 会 为 每 个 需要 执行 的 Task 分 配 一 个 CPU 内 核资 源 。 

基于 以 上 规则 ,我 们 可 以 很 直观 地 想到 ,在 Spark 上 每 个 Stage 执行 的 Task 数量 ， 
与 集群 可 用 资源 的 匹配 程度 ,直接 影响 着 Spark 程序 的 性 能 ,这 主要 体现 在 以 下 方面 。 
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V 是 否 能 充分 利用 集群 资源 决定 了 程序 的 运行 时 间 : 举例 来 说 ,如 果 我 们 拥有 一 
个 有 200 个 CPU 内 核 的 集群 ,并 且 可 以 独占 地 被 一 个 Spark 程序 使 用 。 如 果 这 
个 程序 在 某 个 Stage 只 启动 了 20 个 Task ,而 每 个 Task 都 需要 计算 大 量 的 数据 ， 
此 时 就 意味 着 有 大 量 的 计算 资源 未 能 发 挥 作用 。 如 果 我 们 可 以 通过 配置 或 算 
法 优化 提高 该 Stage 启用 的 Task 数量 , 则 可 以 提高 集群 资源 利用 率 ,缩短 程序 
运行 时 间 。 

V 过 小 的 并 行 度 可 能 造成 内 存 压力 过 大 : Spark 的 整体 计算 架构 是 围绕 充分 利用 
分 布 式 内 存 对 象 而 设计 的 。 很 多 基础 的 算 子 ,例如 join cogroup 和 groupByKey 
等 常用 算 子 ,都 需要 在 HashMap 或 内 存 缓存 中 保存 大 量 的 计算 对 象 。 同 时 ,这 
些 算 子 触发 的 shuffle 操作 在 拉 取 数 据 时 还 需要 使 用 大 量 的 内 存 空 间 。 此 外 ， 
reduceByKey 和 aggregateByKey 等 算 子 所 触发 的 shuffle 操作 在 拉 取 和 输出 时 都 
需要 占用 大 量 的 内 存 空间 。 在 这 样 的 情况 下 ,如 果 程 序 的 并 行 度 太 小 ,为 这 些 
算 子 所 启动 的 每 个 Task 将 要 处 理 规模 很 大 的 数据 ,集群 内 存 如 果 不 足以 容纳 
这 些 数据 , 则 可 能 出 现 严重 的 问题 。 此 外 ,Spark 程序 的 运行 是 基于 JVM 的 ,如 
果 内 存 空 间 不 足 会 导致 频繁 或 长 时 间 的 GC 操作 ,可 能 会 极 大 地 增加 程序 的 运 
行 时 间 。 同 时 ,Spark 为 了 确保 系统 的 健壮 性 ,在 并 行 度 过 小 导致 内 存 不 足 时 
会 将 数据 临时 写 入 磁盘 中 ,将 极 大 地 增加 磁盘 10 时 间 及 数据 排序 时 间 ,同样 会 
导致 程序 性 能 的 恶化 。 

在 默认 情况 下 ,Spark 执行 引擎 通过 一 些 默认 规则 为 我 们 解决 了 大 部 分 程序 并 行 

度 的 控制 工作 ,包括 : 

V E Spark 中 ,RDD 间 存 在 世系 关系 ,在 没有 特别 指定 的 情况 下 ,每 个 RDD 的 分 
区 数量 通常 是 与 其 父 RDD 相同 的 。 因 此 ,对 于 没有 reduce 类 算 子 的 Stage， 
Spark 执行 引擎 启动 的 Task 数量 通常 与 这 个 Stage 的 最 后 一 个 RDD 的 分 区 数 
相同 。 

V 对 于 reduce 类 算 子 (例如 groupByKey 和 reduceByKey 算 子 ) Spark 的 基本 规则 
是 启动 与 父 RDD 中 最 大 分 区 数 相同 的 Task 数量 。 

V d Spark 里 也 存在 要 对 没有 父 RDD 的 RDD 启动 Stage 进行 处 理 的 情况 ,例如 
使 用 textFile( ) 和 hadoopFile( ) 产生 的 RDD。 这 些 RDD 的 分 区 数 是 由 文件 大 
小 及 底层 的 mputFormat 格式 和 参数 决定 的 。 通 常情 况 下 ,这 类 RDD 会 对 每 个 
HDFS 的 文件 块 (Block ) 产 生 一 个 分 区 。 
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这 些 基 本 规则 对 于 一 些小 规模 的 Spark 程序 ,也 能 满足 一 些 基 本 需求 。 但 是 这 种 
默认 的 设置 方式 显然 不 一 定 是 最 优 方案 。 例 如 , 当 Stage 中 的 父 RDD 分 区 数 很 小 , 执 
行 reduceByKey 或 join 等 需要 执行 分 布 式 Shuffle 变换 时 ,启动 的 任务 数 也 会 很 小 ,导致 
并 行 度 不 足 。 而 使 用 textFile( ) 基于 HDFS 文件 产生 的 没有 父 RDD 的 RDD 时 ,如 果 文 
件数 量 很 多 或 文件 很 大 , 则 可 能 因为 文件 块 数量 过 大 而 启动 过 多 的 任务 ,增加 了 大 量 
额外 的 通信 开销 。 因 此 ,我 们 也 有 必要 来 了 解 下 Spark 为 我 们 提供 了 哪些 手段 可 以 控 
制程 序 的 并 行 度 ,以 使 Spark 程序 与 资源 更 好 地 匹配 ,包括 : 

V 合理 设置 spark. default. parallelism 参数 : 我 们 可 以 通过 spark-env. sh 脚本 或 在 
程序 中 修改 SparkContext. SparkConf 来 设置 spark. default. parallelism 参数 。 该 
参数 将 控制 RDD 变换 在 没有 设置 变换 后 分 区 数 时 新 生成 的 RDD 的 分 区 数量 ， 
同时 将 决定 执行 此 变换 时 的 任务 数 。 

V 在 对 RDD 进行 变换 时 利用 参数 控制 分 区 数量 : 在 前 面 介绍 RDD 算 子 时 ,我 们 
已 经 看 到 在 很 多 变换 的 函数 接口 中 , 均 可 以 指定 此 变换 生成 的 新 RDD 的 分 区 
数量 ,例如 去 重 算 子 distinct( numPartitions: Int) 中 的 numPartitions 参数 。 通 过 
指定 新 RDD 的 分 区 数量 ,我 们 就 可 以 控制 后 续 计 算 时 Spark 引擎 启动 的 任务 
数 。 虽 然 在 RDD 算 子 列表 中 我 们 没有 列 出 所 有 具备 指定 分 区 数量 参数 的 算 子 
函数 ,但 实际 上 大 部 分 RDD 算 子 是 可 以 指定 分 区 数量 的 ,大 家 可 以 在 使 用 时 查 
li] Spark 官方 API 文档 。 

V 改变 RDD 的 分 区 数量 : Spark 为 我 们 提供 了 一 系列 算 子 可 以 改变 RDD 的 分 区 
数量 ,从 而 达到 控制 程序 并 行 度 的 目的 。 例 如 ,repartition 算 子 可 以 将 RDD 进 
fT Shuffle 后 生成 指定 数量 的 分 区 。 如 果 我 们 明确 地 知道 合并 分 区 的 方式 ,我 
们 还 可 以 使 用 coalesce 算 子 而 不 进行 Shuffle 操作 改变 分 区 数量 ,由 于 减少 了 代 
价 很 高 的 Shuffle 操作 ,coalesce 算 子 执行 效率 更 高 。 

V 控制 HDFS 的 输入 : 用 HDFS 文件 使 用 textFile( ) 产生 的 RDD 时 ,Spark 默认 会 
为 每 个 HDFS 文件 块 创建 一 个 分 区 。 虽 然 在 textFile( ) 函数 中 我 们 可 以 指定 希 
望 的 分 区 数量 ,但 我 们 只 能 增加 分 区 数 而 不 能 设置 比 HDFS 文件 块 数 更 小 的 分 
区 数 。 如 果 HDFS 使 用 默认 的 64MB( Hadoop 2. 0 之 前 ) 或 128MB( Hadoop 2. 0 
之 后 ) 作 为 文件 块 大 小 , 当 我 们 觉得 分 区 数 过 多 时 ,可 以 通过 增 大 HDFS 文件 块 
大 小 参数 来 达到 减少 分 区 数 的 目的 。 在 HDFS 文件 块 大 小 参数 不 能 修改 或 
HDFS 文件 已 经 存储 完毕 的 情况 下 , 则 可 以 通过 修改 Hadoop 的 mapreduce. 
input. fileinputformat. split. minsize 参数 或 编写 自 定义 InputFormat 类 的 方法 来 改 
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变 读 人 数据 的 分 区 数量 。 

需要 注意 的 是 , 太 小 的 并 行 度 不 利于 充分 发 挥 集群 的 能 力 , 而 太 大 的 并 行 度 也 可 
能 会 带 来 过 多 的 网 络 通信 开销 降低 性 能 。 那 到 底 多 大 的 并 行 度 是 一 个 合适 的 值 呢 ? 
这 是 一 个 很 难 回答 的 问题 。 由 于 要 解决 的 问题 和 集群 运行 环境 的 复杂 性 , 目前 并 没有 
一 个 统一 的 算法 能 帮助 我 们 快速 找到 一 个 合适 的 并 行 度 值 。 在 实践 过 程 中 ,我 们 发 现 
Sandy Ryza 在 他 的 一 篇 博客 中 提 到 的 一 个 实践 性 方法 具有 不 错 的 效果 (尽管 他 也 提 到 
了 一 个 理论 算法 ,但 似乎 很 难 应 用 ) 。 在 这 里 我 们 也 分 享 一 下 参考 这 个 实践 方法 的 优 
化 基本 思路 : 首先 通过 Spark Ul 了 解 程序 的 Stage 切 分 情况 ,然后 针对 每 个 Stage 进行 
优化 。 对 于 每 个 Stage 先 从 较 小 的 并 行 度 开始 ,不 断 通过 rdd. partitions( ). size( ) 算 子 
关注 关键 RDD 的 分 区 数量 ,然后 结合 前 面 提 到 的 Spark 分 区 和 任务 数 产生 原则 ,以 倍 
数 提高 该 Stage 的 并 行 度 ,同时 密切 关注 程序 的 运行 时 间 。 当 并 行 度 增加 到 运行 时 间 
不 再 缩短 时 , 转 而 以 1.5 倍 的 比例 从 上 一 次 并 行 度 开 始 继续 提高 ,直到 运行 时 间 不 再 
缩短 为 止 。 

为 了 展示 不 同 并 行 度 对 Spark 程序 的 性 能 影响 ,我 们 设计 了 一 个 HTTP 访问 日 志 
分 析 实例 来 进行 说 明 。 分 析 的 输入 文件 是 大 量 包 含 用 户 通过 HTTP 请 求 访问 的 URL 
的 日 志文 件 ,存储 在 logs 目录 下 。 每 个 日 志文 件 包含 67 个 字段 ,包括 时 间 、 用 户 ID 
等 ,字段 间 采 用 “1” 进 行 分 隔 。 其 中 第 50 个 字段 为 用 户 访问 的 URL. 文件 格式 和 内 容 
示例 如 下 所 示 。 











url01.csv 


..abc.com/1.html .. 
.def.com.cn/2.php .. 


.uvw.com/3.jpg .. 
Xyz.com/4 .png me 


由 于 日 志文 件数 据 量 非常 大 ,为 了 节省 数据 分 析 消 耗 的 时 间 和 计算 资源 ,我 们 并 
不 希望 对 日 志 中 的 所 有 条 目 进行 分 析 。 例 如 ,如 果 我 们 的 目标 是 希望 通过 分 析 用 户 的 
点 击 行为 来 了 解 用 户 喜 好 ,我 们 希望 通过 一 些 规 则 过 滤 掉 非 用 户 点 击 所 产生 的 URL, 
例如 网 页 内 赃 的 图 片 等 。 我 们 将 这 些 规则 存储 在 文件 logs 目录 下 的 rule. csv 文件 中 。 
文件 中 每 行为 一 个 以 正则 表达 式 存 储 的 规则 。 下 面 的 代码 展示 了 使 用 不 同 并 行 度 对 
话 单 文件 中 全 部 记录 进行 正则 匹配 的 性 能 比较 。 
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不 同 并 行 度 性 能 比较 的 示例 程序 





: val file=sc.textFile("/logs/ +", partitionNum) 
: val reg=sc.textFile("/logs/rule.csv").collect () 


1 
2 
3: val broadReg =sc.broadcast (reg) 
4 


: val validLogs -file.map(line -»line.split("[l]")).filter( .length == 


67) .£ilter (!_(0).equals ("Length")). 


filter (x =>broadreg.value. map (x (50) .matches (_)) .reduce (_| |_)) 


5: validLogs.map (_.mkString("[|]")) .saveAsTextFile("validLogs ") 


代码 第 1 行 是 读 入 logs 目录 下 的 所 有 日 志文 件 生成 RDD, 并 通过 参数 
partitionNum 指定 生成 的 RDD 的 分 区 数 。 代 码 第 2,3 行 读 入 规则 ,并 生成 一 个 广播 变 
量 发 送 到 所 有 执行 节点 中 。 代 码 第 4 行 先 按照 | "符号 分 隔 的 方式 提取 日 志 每 条 记录 
中 的 字段 ,并 通过 检查 字段 数量 是 否 为 67 判断 每 行 记 录 的 格式 合法 性 ,然后 对 第 50 
个 字段 即 用 户 访问 的 URL 进行 规则 匹配 。 代 码 第 5 行将 符合 规则 的 记录 输出 到 结果 


目录 中 。 


我 们 使 用 spark-shell 命令 携带 配置 参数 num-executors 为 20 及 参数 executor-cores 
为 8 启动 以 上 程序 。 即 指定 使 用 的 系统 资源 为 20 个 Executor, 每 个 Executor 有 8 个 
CPU 核 , 因 此 共计 有 160 个 Executor Cores 供 程序 使 用 。 输 入 数据 为 1CB ,规则 文件 的 
正则 表达 式 为 21878 条 ,匹配 后 的 输出 文件 为 1.3MB。 当 我 们 分 别 设置 读 人 日志 文件 
后 创建 RDD 的 分 区 数 为 10.50 .100 和 150 时 ,程序 执行 的 时 间 如 表 6-3 所 示 。 





表 6-3 不 同 分 区 的 程序 性 能 测试 














编号 分 区 数 partitionNum 参数 执行 时 间 
1 10 2 小 时 30 分 
2 50 54 分 
3 100 32 分 
4 150 21 分 








从 实验 结果 我 们 可 以 看 到 ,在 可 使 用 的 计算 资源 为 160 个 Executor Cores 的 情况 
下 , 当 分 区 数 过 少时 ( 例如 10 和 SO) ,程序 不 能 充分 利用 集群 提供 的 计算 资源 ,因此 程 
序 执行 时 间 较 长 。 当 我 们 通过 增加 分 区 数量 从 而 提高 程序 并 行 度 时 , 则 可 以 提升 对 计 
算 资 源 的 利用 率 ,不 断 降 低 程序 的 执行 时 间 ,实现 了 更 高 的 计算 性 能 。 
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6.3 利用 持久 化 


Spark 集群 是 一 个 通过 网 络 连接 各 服务 器 节点 的 分 布 式 处 理 系 统 , 因 此 与 其 他 分 
布 式 处 理 系统 一 样 ,网 络 通信 开销 也 是 决定 Spark 程序 运行 效率 的 重要 因素 之 一 。 对 
于 所 有 宽 依赖 ( 请 参见 3. 2.5 节 ) 的 RDD 算 子 ,由 于 子 RDD 的 产生 要 依赖 所 有 父 
RDD ,因此 ,这 些 算 子 的 变换 过 程 不 能 在 一 个 计算 节点 中 完成 ,而 是 要 按照 一 定 规则 将 
多 个 节点 中 符合 一 定 条 件 的 一 组 RDD 通过 网 络 传送 到 集群 中 不 确定 的 另 一 个 节点 进 
行 计算 ,在 此 过 程 中 还 要 进行 Shuffle。 因 此 ,对 于 使 用 了 宽 依赖 算 子 的 程序 ,如 果 规 划 
不 当 , 可 能 会 因为 过 多 的 网 络 通信 开销 而 影响 程序 性 能 。 为 了 更 清楚 地 展示 这 一 问 
题 ,我 们 以 一 个 具体 的 网 络 流量 分 析 实 例 来 说 明 。 

假设 我 们 可 以 获取 一 个 网 站 的 用 户 信息 和 访问 网 络 日 志 。 其 中 用 户 信息 数据 中 
包含 了 数 以 百 万 计 的 用 户 记录 ,其 格式 和 内 容 如 下 所 示 。 


userInfo.csv 


86158... 2 3 = 
86137. 21.. 
86135..1 3.. 


在 userlnfo. csv 中 保存 了 每 个 用 户 的 基本 信息 ,其 中 第 一 列 为 用 户 ID ,第 二 列 为 用 
户 所 在 的 省 份 ID ,第 三 列 为 地 市 ID ,其 他 列 还 包含 用 户 姓名 性别 等 更 多 个 人 信息 ,在 
这 里 我 们 暂时 忽略 。 另 外 ,我 们 还 可 以 通过 网 络 流 实 时 获得 用 户 通过 HTTP. 协议 访问 
网 站 的 日 志 , 该 日 志 每 5 分 钟 产 生 一 个 ,文件 名 为 accessLog_YYYYMMDDHHMM. csv, 
文件 名 “_" 后 的 后 缀 是 由 文件 产生 时 的 年 月 日 时 分 构成 的 ,文件 格式 如 下 。 


accessLog_* .csv 


20151122120031 86158... qq 205 .. 
20151122120103 86137... qq 704 .. 
20151122120115 86135... baidu 235 .. 


20151122120401 86158... sp3 .. 


20151122120412 86135... spl ... 
20151122120456 86137.. sp2 .. 


文件 中 保存 了 5 分 钟 内 每 次 访问 的 时 间 ( 为 简单 起 见 我 们 假定 精确 到 秒 ) 、 用 户 
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ID ,被 访问 的 网 站 (例如 qq、baidu 等 ) 流量 (KB) 以 及 其 他 我 们 暂时 忽略 的 信息 。 我 
们 分 析 的 目标 是 要 统计 每 5 分 钟 不 同 省 份 对 各 个 网 站 访问 产生 的 流量 。 为 此 ,我 们 编 
写 了 以 下 代码 进行 分 析 。 


统计 不 同 省 份 对 各 网 站 访问 流量 的 示例 程序 (初始 版 本 ) 


1: package io.github.lsrbupt.spark.performance 

2: import org.apache.spark.SparkConf 

3 import org.apache.spark.SparkContext 

4 import org.apache.spark.rdd.RDD 

5: object PrepartitionTuningRefer ( 

6 def main(args: Array [String]): Unit - ( 

7 if (args.length <2) { 

8 println("Usage: <userInfoFile><accessLogPath ><output >") 
9: System.exit (2) 

10: } 


11: val conf =new SparkConf () .setAppName ("Prepartition Tuning 
Refer") 

12: val sc - new SparkContext (conf) 

13: val userInfo -sc.textFile (args (0)) 

14: val accessLogPath - args (1) 

15: val PHONE_NUM =0 

16: val TOTAL =10 

ATs val unprepartitionUserInfo = userInfo.map ( .split ("\t")). 
filter (_. length = = TOTAL). map (fields = > (fields (PHONE _ NUM), 
fields)).persist 

18% val beginTime = "2015112212" 

19: for (i <-0 until 12) { 

20: trafficCount (accessLogPath + "/accessLog_" + f"$begin 
Time $ (i * 5)$ 02d" + ".csv", sc, unprepartitionUserInfo, args (2)) 

21: H 

22: Sc.stop 

23: ) 

24: def trafficCount (file: String, sc: SparkContext, userInfo: RDD 
[(String,Array [String])],output :String):Unit ={ 

25: val PHONE NUM -1 

26: val TOTAL -12 

275 val accessLog -sc.textFile(file, 2).map(_.split("\t")).filter 
(_.length == TOTAL) .map (fields => (fields (PHONE NUM), fields)) 

28: val mergeInfo -accessLog.join (userInfo) 

29: val USER PROVINCE -1 

30: val SP-2 

at: val UP_BYTES =10 

32: val DOWN_BYTES =11 

33: val trafficCount =mergeInfo .map ({ 

34: case (phoneNum, (accessLog, userInfo)) => (userInfo (USER_ 


PROVINCE) + "Nc" + accessLog (SP), accessLog (UP BYTES).toLong + accessLog 
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(DOWN BYTES).toLong) 

35: }) 

36: .reduceByKey( + _) 

37: -map((case (k, v)=>k + "X" + v}) 

38: trafficCount.saveAsTextFile(output + "/" + file.split("/"). 


代码 7 ~ 10 行 读 取 命 令 行 参数 ,参数 1 为 用 户 信息 数据 文件 路 径 ,参数 2 为 用 户 
访问 日 志 路 径 , 参 数 3 为 结果 输出 路 径 。 代 码 11 ~ 14 行 创建 SparkContext 并 读 取 用 户 
信息 数据 到 RDD 中 ,命名 为 userInfo。 代 码 15 ~17 行 先 将 userlnfo 中 字段 数目 不 正确 
的 记录 过 滤 掉 , 再 把 记录 转换 为 键 值 对 格式 , 键 是 用 户 手 机 号 , 值 是 记录 ,最 后 将 输出 
的 RDD 持久 化 ,使 得 之 后 不 会 重复 进行 这 些 变换 。 代 码 18 ~ 21 行 调 用 traffieCount ( ) 
方法 对 2015-11-22 12:00 开始 的 1 小 时 用 户 访问 记录 ( 共 12 个 文件 ,每 5 分 钟 一 个 ) 进 
行 流量 统计 。 代 码 22 ~23 行 停止 SparkContext 并 退出 程序 。 代 码 24 ~39 行 定义 了 方 
法 wafficCount() 。 该 方法 接收 四 个 参数 ,参数 1 是 用 户 访问 日 志 单 个 5 分 钟 文件 的 路 
径 ,参数 2 是 SparkContext, 参 数 3 是 经 过 清洗 和 格式 转换 之 后 的 用 户 信息 数据 RDD, 
参数 4 是 结果 输出 路 径 。 代 码 25 ~27 行 读 取 5 分 钟 用 户 访问 日 志 到 RDD 中 ,同时 过 
滤 掉 字段 数目 不 正确 的 记录 ,再 把 记录 转换 为 键 值 对 格式 , 键 是 用 户 手 机 号 , 值 是 记 
录 。 代 码 第 28 行将 用 户 信 息 数据 和 用 户 访问 日 志 以 手机 号 为 索引 进行 联结 ,将 每 一 
条 用 户 访 问 网 站 记录 填充 上 用 户 所 在 的 省 份 信息 。 代 码 29 ~36 行 从 联结 后 的 每 一 条 
记录 中 提取 出 用 户 所 在 省 份 ,访问 的 网 站 和 总 流量 (上 下 行 流 量 合并 后 的 值 ) ,然后 以 
前 两 者 为 键 流量 为 值 进行 归 约 。 代 码 第 37.38 行将 流量 统计 结果 进行 格式 化 并 输 
出 。 代 码 的 执行 过 程 如 图 6-3 所 示 。 

初始 版 本 程序 在 运行 时 ,对 于 accessLog 中 每 个 5 分 钟 文件 , 它 都 会 提交 一 个 Job， 
该 Job 分 为 4 个 stage, 对 应 代码 第 17 ,27、33 和 38 行 。 在 实验 中 我 们 对 每 个 stage 进行 
了 测量 ,第 1 Job 的 各 个 stage 运行 时 间 分 别 为 11 秒 .8 秒 .24 秒 和 1 秒 ,Shuffle 过 程 
中 经 过 kryo 序列 化 之 后 的 数据 量 为 165. OMB, 其 中 101. 6MB 为 userlnfo, 64MB 为 
accessLog。 其 中 的 stage 1.2 和 3 都 包含 了 Shullle 读 写 。 我 们 注意 到 ,对 于 每 个 五 分 钟 
accessLog 文件 的 统计 ,要 进行 join 的 userinfo 是 不 变 的 。 如 果 将 该 数据 集 进行 预 分 区 
并 持久 化 ,那么 在 处 理 完 第 一 个 5 分 钟 文件 后 ,该 数据 集 就 已 经 进行 了 一 次 Shuffle 读 
写 和 数据 传输 。 在 接 下 来 11 个 Job 中 ,join 操作 会 知道 userlnfo 已 经 完成 Shuffle 读 写 
并 持久 化 ,不 会 再 进行 数据 传输 ,因此 可 以 减少 11 次 userinfo 的 数据 传输 和 处 理 开销 。 
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图 63 SP 流量 统计 程序 执行 过 程 
基于 此 分 析 ,我 们 对 代码 的 第 17 20 行进 行 如 下 改进 。 


统计 不 同 省 份 对 各 网 站 访问 流量 的 示例 程序 (改进 版 本 ) 


17: 
length == 

(fields (PHONE 
(24)) .persist 


20: 


fields )). 


map) 


[7] 


val prepartitionUserInfo = userInfo.map ( .split ("\t")). 
TOTAL).map (fields => 
— NUM), 


5)$ 02d" + ".csv", sc, prepartitionUserInfo,args (2)) 


我 们 在 对 用 户 信息 数据 进行 清洗 和 格式 转换 后 ,将 userInfo 预 分 为 24 个 分 区 并 持 
久 化 到 内 存 中 。 在 进行 流量 统计 时 ,trafficCount( ) 方 法 的 参数 3 就 是 经 过 了 清洗 、 格 式 


CoGroupedRDD 


partitionBy (new HashPartitioner 


trafficCount (accessLogPath + "/accessLog " + f"$beginTime $ {i * 


filter ( . 
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转换 、 预 分 区 和 持久 化 的 用 户 信息 数据 prepartitionUserInfo( 初始 版 本 则 是 未 经 过 预 分 
区 的 unprepartitionUserInfo) 。 我 们 将 初始 版 本 和 改进 版 本 的 两 个 程序 在 2 个 Executor、 
每 个 Executor 为 4 个 Cores 的 配置 下 进行 测试 ,得 到 的 测试 数据 如 表 6-4 所 示 。 从 测试 
数据 我 们 可 以 看 出 ,在 对 userinfo 进行 预 分 区 并 持久 化 后 ,参与 Shuffle 的 数据 量 大 幅 
减少 (从 1842.5MB 减少 到 647. 1MB) ,并 且 程 序 执行 时 间 明 显 降低 (由 6 分 40 秒 降低 
为 1 分 35 秒 ) ,程序 性 能 得 到 了 极 大 的 提高 。 


ROA 预 分 区 持久 化 性 能 对 比 








测试 编号 是 否 预 分 区 及 持久 化 Shuffle 数据 量 执行 时 间 
1 E 1842.5MB 6 分 40 秒 
2 是 647. 1MB 1 分 35 秒 
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在 本 书 的 第 4 章 ,我 们 已 经 了 解 Spark 提供 了 丰富 的 处 理 RDD 的 算 子 。 我 们 在 开 
发 Spark 程序 时 可 以 选择 不 同 的 算 子 组 合 来 完成 同样 的 功能 ,但 显然 并 不 是 所 有 的 实 
现 方法 都 能 获得 一 样 的 性 能 。 因 此 我 们 在 设计 和 实现 Spark 程序 时 需要 注意 不 同 算 子 
的 性 能 差异 ,挑选 恰当 的 算 子 组 合 实现 需要 的 功能 ,从 而 确保 优异 的 Spark 程序 性 能 。 
从 本 书 的 Spark 原理 和 RDD 算 子 介绍 中 我 们 可 以 了 解 到 ,不 同 算 子 的 差异 主要 影响 的 
是 Shuffle 的 次 数 和 数据 量 , 例 如 repartition ,join、cogroup、* By 和 * ByKey 等 算 子 。 由 
于 Shuffle 所 涉及 的 数据 都 需要 先 写 入 磁盘 ,然后 再 通过 网 络 传输 完成 计算 , 耗 时 较 长 ， 
因此 ,我 们 需要 重点 关注 这 些 算 子 的 使 用 方式 。 为 此 ,我 们 基于 以 往 的 开发 经 验 整 理 
了 以 下 要 点 。 
V 避免 使 用 groupByKey 执行 联合 规约 操作 。 例 如 , 虽然 rdd. groupByKey ( ). 
mapValues(_.sum) 与 rdd. reduceByKey(_ + _) 可 以 完成 同样 的 加 和 计算 功 
能 ,但 是 前 一 种 实现 方式 需要 在 网 络 上 传输 整个 数据 集 ,而 后 一 种 方式 先 计算 
每 个 分 区 中 每 一 个 Key 所 对 应 Value 的 加 和 ,然后 在 Shuffle 后 将 这 些 加 和 合并 
为 最 后 的 结果 。 因 此 后 一 种 实现 方法 比 groupBykey 的 实现 方法 效率 更 高 。 我 
们 还 可 以 使 用 其 他 算 子 蔡 代 groupByKey ,例如 ,combinebykey 可 以 用 来 在 返回 
类 型 不 同 于 输入 类 型 的 结合 键 值 对 ,foldbykey 可 以 预 设 一 个 规约 函数 和 一 
零 值 合并 每 个 Key 对 应 的 Value, 
V 当 输 入 和 输出 的 value 类 型 不 同时 ,避免 使 用 reduceByKey。 例 如 ,我 们 编写 一 
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个 转换 用 于 查找 对 应 于 每 个 Key 的 唯一 字符 串 , 实 现 该 转换 的 一 种 方法 是 使 
用 map 算 子 把 每 个 键 值 对 转换 成 一 个 集合 ,然后 用 reduceByKey 结合 ,代码 
如 下 : 


rdd.map (kv => (kv. 1, new Set [String]() + kv._2)).reduceByKey (_ ++) 


因为 每 个 键 值 对 需要 分 配 一 个 新 的 集合 ,上 述 代 码 将 创建 大 量 不 必要 的 集合 对 
因此 我 们 可 以 使 用 aggregateByKey 来 更 加 高 效 地 在 map 端 实现 聚集 ,代码 如 下 。 


val zero =new collection.mutable.Set [String]() 
rdd.aggregateByKey (zero) ((set, v) => set «-v, (setl, set2) => setl ++= 
set2) 


V 在 进行 关联 时 避免 使 用 flat Map -join-groupBy 算 子 的 代码 模式 。 当 两 个 数据 集 
已 经 按 Key 进行 分 组 ,可 以 使 用 cogroup 来 关联 它们 ,这 样 可 以 避免 解 组 和 重 
新 分 组 的 开销 。 

V 当 不 需要 改变 Key 值 时 , 避免 使 用 map 算 子 , 而 选用 mapValues 算 子 或 
flatMapValues 算 子 。 如 果 使 用 map 算 子 对 Value 值 对 进行 操作 ,传递 给 map 算 
子 的 函数 可 能 改变 Key, 从 而 改变 分 区 ,导致 Shuffle。Spark 并 不 检查 传递 给 
map 算 子 的 函数 是 否 改变 Value 值 对 应 的 Key, 而 是 提供 mapValues 和 
flatMapValues 这 两 个 不 改变 Key 值 的 算 子 ,以 确保 分 区 不 发 生 改 变 。 

为 了 直观 展示 不 同 算 子 对 Spark 程序 的 性 能 影响 ,我 们 用 groupByKey 和 
reduceByKey 两 个 算 子 分 别 实现 一 个 相同 的 服务 器 流量 统计 功能 ,并 通过 运行 时 间 观 
察 它们 的 性 能 差异 。 我 们 的 测试 数据 是 用 户 上 网 日 志 话 单 , 其 中 字段 10 为 一 次 数据 
流 的 开始 时 间 ( 精 确 到 毫秒 的 UTC 时 间 ) ,字段 21 为 服务 器 的 点 分 十 进 制 的 耳 地 址 ， 
字段 24 为 这 次 数据 流 的 流量 值 。 我 们 先 使 用 groupByKey 算 子 实现 统计 每 台 服务 器 每 
10 分 钟 的 流量 和 的 功能 ,代码 如 下 。 


使 用 groupByKey 算 子 统计 服务 器 流量 的 示例 代码 


import java.text.SimpleDateFormat 
import java.util.Date 
import org.apache.spark.SparkContext ._ 
import org.apache.spark.{SparkConf, SparkContext } 
object SparkTest { 
def safeStringToDouble (str: String): Option [Double] =try { 
Some (str .toDouble) 
} catch { 
case e:NumberFormatException => None 


FoOMIDHBWNHH 


0: y 
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11: def safeStringToLong (str: String): Option [Long] -try { 
12; Some (str .toLong) 

13; } catch { 

14: case e:NumberFormatException => None 

15: ) 

16: def main(args: Array [String]): Unit - ( 

17: val input - args (0) 

18: val output -args (1) 

19: val conf - new SparkConf ().setAppName ("SparkTest ") 
20: val sc -new SparkContext (conf) 

al: val data -sc.textFile("/import data/gd/20160115/103u1 154/ "). 


map (x => x.split("W]|")).filter( .length == 67).map (x =>(safeStringToLong (x 
(9)),x (20), safeStringToLong (x (23)))).filter (x => x. 1.nonEmpty&&x. 3. 
nonEmpty).mapPartitions (iter =>{ 
val df: SimpleDateFormat -new SimpleDateFormat ("yyyy - 
MM -dd HH:mm:ss") 
iter .map (x => { 
val utcTimeStamp -x. l.get.toLong /600000 «600000 
val timeString -df.format (new Date (utcTimeStamp)) 
(timeString+"," «x. 2, x. 3.get) 
})}) .groupByKey () .map (t => (t. 1,t. 2.sum)) 


22: data.saveAsTextFile ("/ output") 
23t sc.stop 

24: } 

255} 


功能 主要 逻辑 由 上 述 代码 的 第 21 行 实现 。 首 先 使 用 textFile 读 取 输入 文件 ,然后 
用 map 算 子 将 输入 文件 映射 成 一 行 一 行 的 数据 。 由 于 原来 的 日 志文 件 是 用 "1 ”分 割 
的 ,所 以 用 split 算 子 分 隔 并 提取 字段 。 在 日 志文 件 的 定义 中 ,全 部 字段 数量 应 为 67 
个 。 由 于 在 数据 传输 中 可 能 出 现 错漏 ,因此 需要 用 filter 过 滤 出 格式 正确 的 数据 ,然后 
将 第 10 个 字段 (开始 时 间 ) ,第 24 个 字段 (上行 流量 ) 转 换 成 Long 型 。 接 着 用 filter 算 
子 剔 除 掉 开 始 时 间或 上 行 流量 为 空 的 脏 数据 。 由 于 第 10 个 字段 是 精确 到 毫秒 的 UTC 
时 间 ,而 我 们 需要 统计 的 是 每 10 分 钟 内 的 上 行 流量 和 ,所 以 将 开始 时 间 进行 一 个 转 
换 。 通 过 将 开始 时 间 除 以 600 000 再 乘 以 600 000 的 方法 获得 以 10 分 钟 为 单位 的 时 间 
窗 序号 ,序号 相同 的 记录 即 为 发 生 在 同一 个 10 分 钟 时 间 窗 内 的 流 记 录 。 然 后 以 时 间 
窗 序号 和 服务 器 IP 组 合 为 Key, 流 量 值 为 Value ,使 用 groupByKey 算 子 把 相同 Key 的 数 
据 分 组 集合 ,最 后 通过 map 算 子 将 时 间 窗 口 和 服务 器 LP 相同 键 值 对 中 的 流量 值 相 加 ， 
得 到 每 台 服务 器 每 10 分 钟 的 上 行 流量 和 。 代 码 的 执行 过 程 如 图 6-4 所 示 。 

同时 ,我 们 也 设计 了 用 reduceByKey 算 子 实现 同样 功能 的 代码 ,其 差异 仅 在 第 21 
行 上 ,代码 如 下 。 
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图 64 使 用 groupByKey 统计 服务 器 10 分 钟 流量 执行 过 程 


使 用 reduceByKey 算 子 统计 服务 器 流量 的 示例 代码 


21: valdata-sc.textFile("/import data/gd/20160115/103u1 154/").map 
(x 2» x.split ("\\I")). 
filter (_. length == 67).map (x = > (safeStringToLong (x (9)),x (20), 
safeStringToLong (x (23)))). 
filter (x =>x._1.nonEmpty&&x._3 .nonEmpty) .mapPartitions (iter =>{ 
val df: SimpleDateFormat =new SimpleDateFormat ("yyyy - MM - 
dd HH:mm:ss") 
iter.map (x => { 
val utcTimeStamp -x. l.get.toLong /600000 * 600000 
val timeString -df.format (new Date (utcTimeStamp)) 
(timeString+"," «x. 2 , x. 3.get) 
))).reduceByKey (_ + _) 











使 用 reduceByKey 统计 服务 器 10 分 钟 流量 的 执行 过 程 如 图 6-5 所 示 。 
虽然 这 两 个 程序 都 能 得 到 相同 的 统计 结果 ,但 是 从 执行 过 程 图 中 我 们 可 以 清楚 地 
看 到 两 者 的 差异 : 

V 使 用 groupByKey 进行 统计 时 ,所 有 的 键 值 对 将 被 Shuffle ,这 将 导致 很 多 不 必要 
的 数据 在 网 络 上 传输 。 在 Shuffle 时 ,Spark 会 调用 一 个 分 区 函数 确定 每 一 个 键 
值 对 应 被 Shuffle 到 哪 一 台 机 器 上 。 当 一 台 机 器 的 内 存 不 够 时 ,Spark 还 会 将 数 
据 溢 出 到 硬盘 中 ,这 将 极 大 地 影响 程序 的 执行 性 能 。 

V 使 用 reduceByKey 时 ,在 Shuffle 之 前 ,reduceByKey 可 以 让 Spark 知道 对 每 个 分 
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图 6-5 使 用 reduceByKey 统计 服务 器 10 分 钟 流量 执行 过 程 
区 上 的 每 一 个 Key 只 需 输出 一 个 中 间 结 果 。 通 过 传递 给 reduceByKey 的 自 定 
义 处 理 函 数 , 在 每 个 分 区 上 具有 相同 Key 的 键 值 对 在 Shuffle 前 就 被 合并 了 。 
TE Shuffle 后 , 自 定义 处 理 函 数 再 次 被 调用 ,将 所 有 分 区 的 中 间 结 果 进 行规 约 ， 
直接 产生 一 个 最 终 的 结果 。 
可 以 想象 ,在 处 理 一 个 很 大 的 数据 集 时 ,reduceByKey 和 groupByKey 所 需要 Shuffle 
的 数据 量 差别 将 变 得 很 大 。 我 们 使 用 了 一 个 大 小 为 405GB. 的 日 志文 件 执行 以 上 两 个 
程序 并 通过 Web Ul 观察 Shuffle 数据 量 和 记录 执行 时 间 ,测试 数据 如 表 6-5 所 示 。 从 
测试 数据 中 我 们 可 以 明显 地 看 出 在 完成 相同 功能 时 选择 不 同 算 子 所 造成 的 性 能 差异 ， 
使 用 groupByKey 算 子 的 Shuffle 数据 量 是 reduceByKey 算 子 的 2 倍 多 , 且 使 用 
groupByKey 比 使 用 reduceByKey 算 子 多 消耗 了 14.3% 的 时 间 。 
表 6-5 reduceByKey 和 groupByKey 测试 数据 











测试 编号 使 用 算 子 Shuffle 数据 量 执行 时 间 
1 reduceByKey 4GB 7560 f 
2 groupByKey 9. 3GB 8640 f 
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在 本 书 第 3 章 Spark 原理 部 分 我 们 已 经 了 解 到 ,一 个 Spark 程序 会 被 拆 分 为 多 个 
任务 以 分 布 式 的 方式 运行 在 集群 中 的 多 个 服务 器 上 。 在 这 一 架构 下 ,我 们 可 以 在 任务 
内 部 定义 及 操作 变量 ,这 些 变量 只 在 任务 内 部 有 效 , 而 不 同 任务 之 间 的 变量 相互 独立 ， 


182 #6 Š Spark 


因此 我 们 不 能 将 任务 中 定义 的 变量 作为 Spark 程序 的 全 局 变量 使 用 。 在 实际 应 用 中 ， 
我 们 有 时 候 会 需要 能 在 任务 间 共 享 的 全 局 变量 。 针 对 这 种 需求 ,Spark 提供 了 两 种 类 
型 的 共享 变量 : 一 种 是 用 于 汇聚 信息 的 累加 器 , 另 一 种 是 用 于 高 效 分 发 大 型 数据 的 广 
iin 其 中 累加 器 为 可 读 写 变量 ,广播 变量 则 为 只 读 变 量 。 下 面 我 们 对 这 两 种 类 型 
享 变量 分 别 进行 介绍 。 





6.5.1 累加 器 变量 


我 们 可 以 定义 一 个 累加 器 变量 ,该 变量 只 能 在 Spark 程序 的 Driver 进程 上 创建 并 
取 值 。 ee Oi ks 会 回 传 到 作业 的 Driver 进 
程 中 ,然后 对 该 变量 继续 累加 得 到 最 终结 果 。 这 一 过 程 如 图 6-6 所 示 。 


1. 创 建 累加 器 变量 并 赋值 ; 
4. 接 收 各 个 任务 传 回 的 变量 值 累加 求 出 最 终 值 


2. 传 递 累加 器 变量 ， 
初始 值 为 0 











3. 任 务 完成 后 回 传 
计算 后 的 累加 器 变量 值 






























































图 6-6 累加 器 变量 的 运行 流程 

(1) 首先 在 Driver 中 定义 累加 器 变量 ,并 赋予 一 个 初始 值 。 

(2) Driver 将 该 累加 器 变量 传递 到 各 个 执行 任务 的 节点 中 。 需 要 注意 的 是 ,传递 
过 去 的 变量 的 初始 值 均 为 零 ,而 不 是 我 们 在 第 (1) 步 中 定义 的 初始 值 。 

(3) 当 某 个 任务 完成 运行 后 ,计算 节点 会 将 自己 计算 的 累加 器 变量 的 值 回 传 给 
Driver 进程 。 

(4) Driver 将 各 个 计算 节点 传 回 的 值 进行 累加 计算 ,得 到 最 后 的 值 。 

需要 注意 的 是 ,目前 累加 器 只 支持 累加 的 操作 ,也 可 以 用 负数 进行 累加 ,但 不 支持 
减 , 乘 、 除 等 其 他 操作 。 在 具体 应 用 中 ,我 们 可 以 使 用 累加 器 对 某 个 事件 发 生 的 次 数 进 
行 追 踪 , 特 别 是 我 们 需要 对 程序 中 多 种 类 型 的 事件 同时 进行 跟踪 时 , 累加 器 可 以 很 好 
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地 满足 我 们 这 样 的 需求 。 这 里 用 一 个 简单 的 实例 来 进行 说 明 。 假 设 我 们 对 采集 到 的 
日 志文 件 使 用 Spark 进行 清洗 时 , 想 知道 文件 中 有 多 少 行 的 数据 是 无 效 数据 ,此 时 我 们 
就 可 以 通过 累加 器 功能 进行 实现 ,其 具体 代码 如 下 。 


使 用 共享 变量 计算 错误 记录 数 的 示例 程序 


1: scala> val file -sc.textFile ("data.csv") 

file: org. apache. spark. rdd. RDD [String] = data/ datal 
MapPartitionsRDD[15]at textFile at « console >:21 
2: scala? val errorLines - sc.accumulator (0) 


errorLines: org.apache.spark.Accumulator [Int] =0 


3: scala? val filterData = file.map (line => { 

4: | var lineData -line.split ("V") 

5: | var res="" 

6: lif (lineData.length <3) ( 

7: lerrorLines «-1 

8: 1}else ( 

9: | res = lineData (0) +"\t"+lineData(1) +"\t"+lineData (2) 
10: 1} 

11: | res 

12: [3) 


filterData: org.apache.spark.rdd.RDD [String] = MapPartitionsRDD [16] 
at map at < console >:25 
13: scala? filterData.saveAsTextFile("filteredData") 
14: scala? println("error lines: " + errorLines.value) 
error lines: 20845 


首先 代码 第 1 行 从 文件 data. csv 中 读 取 数据 ,然后 代码 第 2 行使 用 SparkContext. 
accumulator(0 ) 方 法 来 创建 一 个 累加 器 变量 errorLines 并 初始 化 变量 值 为 0。 该 语句 执 
行 后 返回 的 结果 是 一 个 org. apache. spark. Accumulator[ Int] 类 型 的 对 象 ,其 中 Int Je] 
始 值 的 类 型 。 在 后 面 对 数 据 的 处 理 过 程 中 ,如 果 输 入 的 一 行 数据 的 列 数 少 于 3( 代码 第 
6 行 ) ,我 们 则 认为 是 一 行 错误 数据 ,此 时 对 累加 器 变量 errorLines 加 1( 代码 第 7 行 )。 
在 代码 第 14 行 ,我 们 在 完成 数据 处 理 后 打印 出 累加 器 的 值 ,此 时 输出 的 是 Driver 程序 
将 所 有 计算 节点 中 返回 的 累加 器 变量 errorLines 相 加 后 得 到 的 最 终 值 20 845 , 即 输入 数 
据 中 一 共有 20 845 条 记录 是 错误 数据 。 在 Spark 中 map 转换 算 子 是 惰性 的 ,因此 我 们 
需要 执行 saveAsTextFile 算 子 (代码 第 13 行 ) 后 才能 驱动 该 程序 真正 运行 ,此 时 累加 器 
的 操作 才 会 随 之 执行 并 得 到 结果 。 当 然 ,我 们 也 可 以 使 用 其 他 行动 算 子 来 驱动 程序 运 
行 。 在 实际 应 用 中 , 累加 器 变量 可 以 根据 用 户 需要 集成 在 不 同 规模 不 同 粒度 的 RDD 
中 进行 计算 。 在 输出 累加 器 的 值 时 ,我 们 可 以 调用 其 Value 属性 。 但 需要 注意 的 是 , 累 
加 器 的 Value 属性 无 法 被 Worker 节点 的 任务 获取 。 在 Worker 节点 中 ,累加 器 变量 仅 
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为 只 读 变 量 。 在 这 种 机 制 下 ,累加 器 在 Worker 节点 中 只 需要 简单 地 执行 累加 操作 即 
可 ,而 不 需要 在 Worker 节点 上 更 新 导致 额外 的 网 络 开 销 ,从 而 确保 高 效 运行 。 

目前 Spark 的 累加 器 变量 仅 支持 double float int 和 long 类 型 ,如果 我 们 需要 使 用 
特殊 的 数据 类 型 作为 累加 器 ,可 以 通过 扩展 AccumulatorParam 类 来 增加 自 定义 累加 器 
类 型 ,在 此 过 程 中 需要 使 用 addInPlace „zero 和 addAccumulator 3 个 方法 ,具体 使 用 方法 
可 以 查询 Spark API 的 官方 文档 。 


6.5.2 广播 变量 


在 进行 数据 分 析 时 ,我 们 经 常会 遇 到 这 样 一 类 场景 , 即 部 分 关键 数据 可 能 在 进行 
分 布 式 处 理 时 需要 被 每 个 处 理 节点 都 用 到 。 例 如 ,我 们 在 做 上 网 日 志 分 析 时 ,经 常会 
以 地 域 为 维度 分 析 服 务 器 的 请 求 来 源 。 但 是 在 日 志文 件 中 仅 有 访问 用 户 的 IP 地 址 ， 
并 没有 地 域 信息 。 要 获得 地 域 信息 ,需要 通过 一 个 单独 的 TP. 地址 与 地 域 信息 对 应 的 
资源 文件 中 的 记录 与 上 网 日 志 记录 的 IP 地 址 进行 匹配 来 获得 。 为 了 完成 这 个 匹配 工 
Mf ,一 种 简单 的 方法 就 是 将 资源 文件 中 的 数据 封装 成 一 个 静态 变量 在 程序 中 使 用 。 这 
种 方法 虽然 简单 ,但 如 果 资 源 文件 的 数据 量 达到 GB 甚至 更 高 级 别 时 ,封装 静态 变量 的 
方法 将 变 得 非常 低 效 。 为 了 解决 这 一 问题 ,Spark 提供 了 广播 变量 这 一 机 制 。 广 播 变 
量 用 于 将 Spark 程序 中 一 个 大 型 的 只 读 变 量 发 送 到 至 每 个 Slave 节点 , 供 节 点 上 的 计算 


任务 使 用 ,其 运行 流程 如 图 6-7 所 示 。 
1. 创 建 / =) 
Driver 进 程 
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到 Slave 节 点 到 Slave 节 点 
I Slavei 1 Ig SEES 
SS Slave 节 点 2 Slave {i sin 





3. 读 取 广 播 变量 副本 
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图 6-7 广播 变量 的 运行 流程 
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(1) 首先 在 Spark 程序 中 创建 一 个 广播 变量 。 

(2) Dirver 进程 会 将 广播 变量 发 送 到 各 个 Slave 节点 , 当 集 群 节点 较 多 时 ,广播 变 
量 会 采用 P2P 的 方式 来 在 节点 之 间 分 发 广播 变量 副本 (步骤 2.1)。 

(3) 当 Slave 节点 的 计算 任务 需要 使 用 该 广播 变量 时 ,会 从 该 节点 中 读 取 该 广播 
变量 副本 ,而 不 需要 通过 网 络 从 Driver 进程 中 获取 。 

从 广播 变量 的 执行 流程 我 们 可 以 看 到 使 用 广播 变量 有 多 个 好 处 : 四 广播 变量 只 会 
发 送 一 次 到 各 个 节点 ,然后 节点 上 运行 的 任务 需要 使 用 广播 变量 时 , 均 从 该 节点 读 取 
变量 的 副本 进行 操作 ,大 大 降低 了 数据 传输 量 , 提 高 任务 运行 速率 ; @ 广 播 变 量 为 只 读 
变量 ,保证 了 各 个 节点 数据 的 一 致 性 ; @ 广 播 变量 会 采用 PP 的 通信 机 制 ,在 集群 节 
点 较 多 的 时 候 ,该 机 制 可 以 实现 数据 快速 传播 到 各 个 节点 ,提高 Spark 程序 的 效率 。 

下 面 我 们 以 按 地 域 统计 访问 次 数 的 功能 为 例 展 示 广 播 变量 的 具体 使 用 方法 ,代码 
如 下 所 示 ( 为 简单 起 见 ,我 们 仅 展示 与 广播 变量 相关 的 部 分 代码 ) 。 





使 用 广播 变量 按 地 域 统 计 访问 次 数 的 示例 程序 


1: val ipLocationLib =sc.broadcast (loadIpLocationLib ()) 
2: val countAccessByCity - accessLog .map ( 

3: | case (ip, numbers) => 

å: | val city = lookUpCity (ip, ipLocationLib.value) 

5 | (city, numbers) 

6 | }.reduceByKey (_ + _) 

7: countAccessByCity.saveAsTextFile (outputFile) 


代码 的 第 1 行将 IP 地 址 与 城市 的 对 应 关系 文件 加 载 后 的 数据 定义 为 广播 变量 
ipLocationLib。 然 后 查询 每 行 日 志 中 的 IP 地 址 对 应 的 城市 (代码 第 4 行 )。 并 以 城市 
为 Key 使 用 reduceByKey 统计 各 个 城市 的 访问 次 数 (代码 第 6 行 ) 。 

根据 以 往 的 经 验 ,在 使 用 广播 变量 时 还 有 两 点 需要 注意 : (D 为 节省 空间 ,在 广播 变 
量 使 用 完毕 后 ,建议 使 用 unpersist 方法 清理 变量 。 但 使 用 该 方法 时 要 特别 注意 ,如 果 
es 会 引发 该 广播 变量 再 次 从 Driver 进程 发 送 到 各 个 Slave 节 
点 ,因此 只 有 在 确定 不 再 使 用 该 广播 变量 后 再 进行 清除 ; @ 如 果 某 个 变量 包含 的 数据 
量 太 大 ， ae 量 的 简单 数据 格式 会 影响 Spark 程序 运行 效率 ,此 时 我 们 可 以 
考虑 先 对 该 变量 进行 序列 化 再 用 广播 变量 的 方式 进行 传播 ,序列 化 的 具体 使 用 方法 可 
以 参考 下 一 小 节 。 
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6.6 利用 序列 化 技术 


我 们 在 用 Spark 进行 数据 分 析 和 数据 挖掘 时 ,往往 伴随 着 大 量 的 数据 缓存 和 数据 
传输 。 在 这 个 过 程 中 ,不 论 是 CPU 、 内 存 还 是 网 络 带宽 ,都 有 可 能 成 为 影响 Spark 程序 
性 能 的 瓶颈 。 如 果 我 们 能 够 减少 数据 传输 量 和 内 存 使 用 量 , 就 可 以 为 Spark 程序 的 性 
能 提升 带 来 极 大 的 好 处 。 在 Spark 框架 中 ,我 们 可 以 采用 序列 化 的 方式 来 存储 RDD, 
从 而 达到 这 一 目的 。 

序列 化 是 指 将 数据 结构 或 者 对 象 按照 某 种 规则 转化 为 可 以 快速 存储 或 传输 的 形 
式 ( 如 二 进 制 ) 的 技术 。 与 序列 化 相对 应 , 反 序列 化 则 是 将 序列 化 后 的 数据 转换 为 数据 
结构 或 者 对 象 。 图 6-8 是 使 用 序列 化 与 反 序 列 化 的 典型 场景 。 数 据 的 提供 方 在 对 数据 
结构 或 者 对 象 序列 化 后 ,将 数据 进行 缓存 或 通过 网 络 传输 到 数据 的 接收 方 。 接 收 方 从 
缓存 中 读 取 数据 或 者 通过 网 络 接收 数据 再 对 二 进 制 字 节 流 之 类 的 数据 进行 反 序列 化 
操作 ,得 到 原始 的 数据 结果 或 对 象 。 序 列 化 和 反 序列 化 是 我 们 在 程序 开发 中 经 常 要 使 
用 的 技术 ,在 分 布 式 、 大 数据 应 用 中 尤为 重要 ,合理 的 序列 化 协议 不 仅 可 以 提高 应 用 的 
健壮 性 能 和 优化 性 能 ,还 可 以 让 应 用 更 容易 扩展 和 调试 。 






























































内 存 缓存/ 数据 
FERRE Bx rh 
ma MA mE T ELE ^ 
! | 反 序列 化 ! 
I 1 
1 
| “| 三 进 制 字 节 流 数据 结构 /对 象 | 1 
| i 
e E E E x 


图 6-8 典型 的 序列 化 与 反 序 列 化 应 用 场景 


在 利用 序列 化 技术 优化 Spark 程序 时 ,我 们 主要 从 两 方面 考虑 如 何 改善 性 能 : 时 
间 和 空间 。 时 间 开 销 主要 体现 在 序列 化 和 反 序列 化 过 程 中 的 时 间 长 短 。 空 间 开销 主 
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要 体现 在 序列 化 过 程 中 增加 的 额外 存储 空间 开销 。 当 前 的 Spark 框架 中 内 置 两 种 序列 
化 方式 ,Java Serialization 和 Kryo Serialization。 为 了 到 兼容 历史 版 本 , 当前 Spark 框架 
默认 采用 Java 的 ObjectOutputStream 框架 , 它 支 持 所 有 继承 于 java. io. Serializable 的 序 
列 化 方法 。 在 实际 Spark 程序 开发 过 程 中 ,我 们 推荐 使 用 Kryo 进行 序列 化 ,因为 该 方 
式 在 压缩 率 和 运行 效率 两 方面 都 优 于 默认 的 Java 序列 化 方式 。 不 过 需要 特别 注意 的 
是 ,目前 Spark 任务 的 序列 化 还 只 支持 Java 序列 化 的 方式 , 它 通过 spark. closure. 
serializer 来 配置 ,而 其 他 数据 的 序列 化 如 Shuffle RDD 缓存 等 均 可 使 用 Kryo 序列 化 。 

为 使 用 Kryo 序列 化 ,我 们 首先 需要 在 应 用 的 SparkConf 配置 中 进行 注册 ,例如 
conf. set( " spark. serializer" , " org. apache. spark. serializer. KryoSerializer" ) 。 然 后 我 们 
可 以 使 用 registerKryoClasses 方法 来 注册 自 定义 Kryo 类 ,在 后 续 Shuffle 或 者 RDD 缓存 
中 使 用 Kryo 进行 序列 化 。 下 面 我 们 以 一 个 具体 实例 来 说 明 如 何 使 用 Kryo 序列 化 方 
式 ,并 和 Java 序列 化 的 性 能 进行 对 比 。 该 实例 的 功能 是 对 网 络 访问 日 志 进 行 分 析 , 统 
计 每 个 用 户 在 5 分 钟 内 的 上 下 行 流量 ,代码 如 下 。 












































统计 中 每 个 用 户 每 5 分 钟 内 的 上 下 行 流量 的 实例 程序 


z val conf =new SparkConf () .setAppName ("TrafficCount") 
2 conf. set ( " spark. serializer", " org. apache. spark. serializer. 
KryoSerializer") 

3: val sc -new SparkContext (conf) 

4:  valfile-sc.textFile (args (0)) 

5 val recordToArray -file.map( .split ("\t")) 

6 val filterRecords -recordToArray.filter( .length ==87) 

7 val mapOutput = filterRecords .map (fields => ( 

8 val minute = fields (BEGIN TIME).toDouble.toInt/300 * 300 


vw 


val key -fields(USER ID) + "\t" + minute 
10: (key, (fields (UPBYTES) .toLong, fields (DOWNBYTES).toLong)) 
ii: H 


12: val reduceOutput =mapOutput .reduceByKey ((x, y) => (x. 1 + y. 1, x._2 
+ y..2), args 2).toInt) 
13: reduceOutput.saveAsTextFile (outputFile) 


代码 第 2 行 通过 SparkConf 的 set 接口 配置 使 用 Kryo 序列 化 方式 ,如 果 不 包含 这 
行 语句 , 则 使 用 默认 的 Java 序列 化 方式 。 代 码 第 4.5 行 从 程序 参数 指定 的 文件 中 读 取 
数据 ,并 用 制 表 符 进行 字段 分 隔 。 代 码 第 6 行 通过 每 行 数据 的 字段 数量 是 否 等 于 87 
进行 数据 合法 性 判断 。 代 码 第 8 行 以 精确 到 秒 UTC 时 间 为 格式 的 流 起 始 时 间 ( 由 常 
量 BEGIN. TIME 指定 字段 序号 ) 转换 为 5 分 钟 窗口 序号 ,例如 UTC 秒 值 1453113613 
(时 间 为 2016/ 1/ 18 18:40:13 ) 会 被 转换 为 1453113600( 时 间 为 2016/ 1/ 18 18:40; 
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00)。 代 码 第 9、10 行 生成 Key/ Value XJ, Key 值 为 用 户 ID 加 时 间 窗 序号 , Value 值 为 
上 行 流量 和 下 行 流量 构成 的 Tuple。 代 码 第 12 行 基于 Key 值 进行 reduce 操作 ,将 相同 
Key 值 的 多 个 Value 值 相 加 , 即 对 上 行 流量 和 下 行 流量 分 别 求 和 。 代 码 第 13 行将 结果 
输入 到 文件 中 。 

我 们 使 用 上 述 程序 ,分别 测试 使 用 Kryo 和 Java 两 种 序列 化 方式 的 性 能 。 输 入 文 
件 大 小 均 为 296.5GB ,运行 结果 也 一 致 。 使 用 资源 为 20 个 Executor, 每 个 Executor 的 
CPU 核 数 为 3。 为 避免 集群 的 背景 负载 波动 导致 测试 结果 偏差 ,对 每 种 序列 化 方式 的 
程序 我 们 分 别 运 行 了 两 次 , 取 平 均 时 间 。 测 试 结 果 如 表 6-6 所 示 。 我 们 可 以 看 到 采用 
Kryo 序列 化 方式 后 ,Shuffle 数据 量 有 明显 的 缩小 , 且 运 行 效率 有 一 定 的 提升 。 

R66 Java 5 Kryo 序列 化 性 能 比较 














测试 序号 序列 化 方式 Shuffle 数据 量 运行 时 间 
1 Java 7.4GB 198 秒 
2 Java 7.4GB 190 秒 
3 Kryo 4.7GB 186 秒 
4 Kryo 4.7GB 174 f 











6.7 关注 数据 本 地 性 


我 们 知道 ,在 处 理 大 量 数据 时 ,需要 使 用 由 多 台 服 务 器 构成 的 集群 运行 Spark 程 
序 。 在 集群 环境 下 ,一 个 计算 节点 所 要 使 用 的 数据 有 可 能 来 自 于 集群 中 的 任何 一 台 服 
务 器 ,例如 本 机 \ 机 架 中 的 另 一 台 服 务 器 或 其 他 机 架 的 一 台 服 务 器 。 当 输入 数据 和 计 
算 任务 在 同一 个 节点 ,通过 本 地 磁盘 TO 即 可 得 到 数据 。 而 当 数据 与 任务 处 在 不 同 的 
服务 器 时 , 则 需要 耗费 一 定 的 时 间 来 通过 网 络 传输 数据 。 因 此 , 在 不 考虑 其 他 因素 的 
情况 下 ,从 以 上 3 种 情况 获取 数据 所 需 的 时 间 显然 是 依次 增加 的 。 由 此 可 以 看 出 , 节 
点 获取 计算 所 需 数据 的 位 置 这 一 因素 ,对 Spark 程序 运行 的 性 能 有 着 很 大 的 影响 ,这 一 
因素 就 称 为 数据 本 地 性 (Data Locality) 。Spark 中 定义 了 5 种 数据 本 地 性 级 别 ,按照 数 
据 与 任务 距离 的 远近 定义 如 下 。 

(1) PROCESS LOCAL: 数据 和 代码 在 同一 个 JVM 中 ,这 是 最 优 的 情况 。 

(2) NODE. LOCAL: 数据 和 代码 在 同一 台 机 器 上 ,例如 在 同一 台 机 器 的 HDFS H, 
或 者 是 同一 台 机 器 的 其 他 Executor 中 。 该 情况 要 比 PROCESS_LOCAL 稍微 慢 一 些 。 

(3) NO_PREF: 指数 据 在 任何 节点 上 获取 都 是 一 样 的 速度 ,例如 将 一 个 Driver 中 
的 collection 对 象 变 成 RDD。 
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(4) RACK LOCAL: 这 种 级 别 是 指数 据 在 同一 个 机 架 的 其 他 一 台 机 器 上 ,获取 这 
些 数据 一 般 需要 通过 一 个 交换 机 。 

(5) ANY ; 这 个 级 别 是 指数 据 要 跨 机 架 传输 。 

我 们 在 运行 Spark 程序 时 ,可 以 从 Spark 的 Web UI 中 查看 该 程序 运行 时 的 数据 本 
地 性 情况 。 图 6-9 展示 了 一 个 实例 ,通过 图 中 的 Locality Level "这 一 列 可 以 看 到 各 个 
任务 的 数据 本 地 性 级 别 。 我 们 可 以 看 到 , 当 数 据 本 地 性 级 别 为 PROCESS_LOCAL 时 ， 
任务 运行 速度 普遍 较 快 ,运行 时 间 明 显 少 于 数据 本 地 性 级 别 为 NODE_LOCAL 和 
RACK_LOCAL 的 任务 。 


py 
Spa ,,, os | Stages | Storage Environment Executors Spark shell application Ul 


Details for Stage 2 


‘Total task time across all tasks: 6.4 min 
Input Size | Records: 10.1 GB / 23944150 
Output: 360.9 MB / 23944150. 


» Show additional metrics. 


Summary Metrics for 76 Completed Tasks 

Metri mn 25th percentile Median 78th percentile Max 

Duration oss 4s 5s ts s 

Gc Tme sms a5ms sems 035 oss 

Input Sue / Records 31.8 MB/ 40928 128.1 MB / 309895 128.1 MB / 313580 125.1 MB 338507 2449 MB / 386718 

Output See /Records 763.5 KB / 40928 4 8 MB 309895 AB MB/ 513580 50 MB1336507 53 MB1356718 

Aggregated Metrics by Executor 

Executor ID Address. Task Time Total Tasks Failed Tasks. Succeeded Tasks. Input Size / Records ‘Output Size / Records 

1 [UU EET 5 o 5 7551 MB/ 1682500 246 MB) 1682580 

2 ba1050148 24 mm a o a 36 G8/8590713 1306 MB /8590713 

3 p SNP D o D 1039 0 MB 2400087 352 MB/ 2400087 

4 baz57253 398 D D D 10450 MB /2389813 349 MB12389013 

5 baia52635 — 24mm 26 o 2 3700/0000907 130.6 MB 0080957 

Tasks 

Executor i01 oc Output size/ 

Index ID Attempt Status Host Launch Time Duration Time input Size/ Records Records Errors 

5 x4 0 success TOCA. iiber 20160122 1s 16ms 2434 MB (memory) / 51 mB / 356718 
155521 ne 

10 3250 SUCCESS PROCESS LOCAL 2/bdi0 20190122 1s 39ms 239.3 MB (memory)/ 49MB / 344997 
155621 344357 

11 327.0 SUCCESS PROCESS LOCAL 5/bd10 20190122 ds 38ms 205148 (memory)/ 49 MB 340808 
155621 40808 

"0 (326 0 SUCCESS PROCESS LOCAL 4/ba2 20190122 03s gms  3t8MB(memoy)/40928 7635 KB/ 40928 
155521 

1 — (3M 0 SUCCESS NODELOCA 5/b00 20160122 Ws — 035 — 1281MB(nadoop)/351157 5.0MB/ 951157 
155522 

2 350 SUCCESS NODELOCAL 5 /Da10 20190122 6s 03s  1281MB(hadoop)/3510:0 50MB1351030 
159522 

3396.0 SUCCESS NODE LOCAL — 2/bdi0 20190122 Ss 02s 420.1 MB(hadoop)/ 352018 50MB/ 352018 
155522 

4 (390 SUCCESS RACKLOCAL — 4/bx2 20180122 12s 04s 1281 MB (hadoop)/350997 50MB1350997 
155625 

9 moo SUCCESS RACKlOCAL — 4/be2 20180122 13s — 08s 1281 mB (hadoop)/338510 49 MB/338510 
155625 

8 390 SUCCESS RACKlOCAL — 1/02 20190122 12s 04s — Q281MB(nagoop)/244289 49MB/344259 
155625 


图 6-9 通过 Web UI 查看 数据 本 地 性 
数据 本 地 性 级 别 对 于 Spark 作业 运行 速度 有 很 大 的 影响 。 如 果 数 据 和 代码 在 同一 
台 机 器 上 面 ,那么 就 可 以 很 快 地 运行 。 但 是 如 果 不 在 同一 台 机 器 上 ,那么 就 需要 移动 
其 中 一 个 。 一 般 来 讲 , 由 于 代码 的 数据 量 较 小 ,移动 代码 要 比 移动 数据 更 快 。 因 此 
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Spark 一 般 倾向 于 尽量 少 移动 数据 ,让 所 有 的 任务 都 运行 在 最 好 的 数据 本 地 性 级 别 环 
境 中 。 然 而 ,并 不 是 每 个 任务 都 能 达到 这 种 要 求 。 当 在 一 个 Executor 上 没有 需要 处 理 
的 数据 而 空闲 之 后 ,Spark 就 会 处 理 更 低 本 地 性 级 别 的 数据 。 此 时 ,Spark 有 以 下 两 种 
策略 来 启动 任务 : GD 不 移动 数据 ,等 待 之 前 的 任务 结束 ,然后 再 启动 任务 ; @) 移 动 数据 
以 在 空闲 的 Executor 上 运行 任务 。 第 一 种 方式 减少 了 数据 的 移动 ,但 是 可 能 造成 CPU 
资源 的 浪费 。 第 二 种 方式 则 是 可 以 充分 利用 CPU 资源 ,但 是 可 能 会 因为 移动 数据 太 多 
导致 过 多 的 10 操作。 那么 Spark 是 如 何在 移动 数据 和 充分 利用 CPU 之 间 进 行 权衡 的 
WE? Spark 的 策略 是 先 等 待 一 小 段 时 间 ,等 待 的 目的 还 是 希望 有 CPU 空闲 出 来 以 减少 
数据 移动 。 如 果 有 CPU 空闲 出 来 ,那么 就 直接 启动 任务 ,不 需要 移动 数据 。 如 果 没 有 ， 
那么 就 移动 数据 到 其 他 空闲 的 Executor 上 面 运行 新 的 任务 。 这 种 方式 称 为 延 时 调度 
算法 。 该 算法 在 切换 数据 本 地 性 级 别 的 时 候 ,通过 付出 等 待 一 小 段 时 间 的 代价 ,实现 
利用 数据 本 地 性 和 利用 空闲 CPU 资源 的 均衡 ,达到 提高 集群 使 用 率 的 目的 。 切 换 数 据 
本 地 性 级 别 时 等 待 的 时 间 可 以 通过 spark. locality. wait 参数 来 进行 统一 的 配置 ,也 可 以 
通过 spark. locality. wait. process , spark. locality. wait. node , spark. locality. wait. rack 等 参 
数 分 别 配置 ,具体 配置 选项 如 表 6-7 所 示 。 需 要 注意 的 是 ,如 果 我 们 配置 的 等 待 时 间 过 
长 ,也 有 可 能 导致 我 们 提交 的 Spark 程序 运行 时 间 加 长 ,降低 程序 的 运行 效率 。 因 此 ， 
在 配置 时 需要 根据 我 们 的 集群 环境 和 作业 类 型 来 具体 评估 ,以 提高 数据 本 地 性 任务 的 
比率 ,有 效 地 减少 网 络 传输 的 数据 量 ,降低 磁盘 10 的 消耗 ,从 而 提高 Spark 程序 的 执行 
效率 。 





表 6-7 数据 本 地 性 相关 配置 选项 


属 性 含 义 RU 值 


当前 数据 本 地 性 级 别 任务 的 等 待 时间 , 超 过 该 时 间 后 
spark. locality. | spark 会 选择 低 一 个 级 别 的 任务 运行 。 当 用 户 的 Spark 








Se 
wait 程序 任务 运行 时 间 较 长 同时 本 地 性 任务 较 少时 ,需要 增 | >? 

大 该 参数 数据 值 
spark. locality. | 启动 数据 在 同一 节点 的 任务 的 等 待 时 间 , 超 时 后 spark | 与 spark. locality. wait 
wait node — | 会 选择 数据 在 同一 机 架 的 任务 运行 相同 





启动 数据 在 同一 Executor 进程 的 任务 的 等 待 时 间 , 超 时 
spark. locality. | 后 spark 会 选择 数据 在 同一 节点 的 任务 运行 。 该 属性 会 | 与 spark. locality. wait 
wait. process | 影响 在 一 个 特定 executor 进程 中 尝试 访问 缓存 数据 的 任 | 相同 

务 执行 


spark. locality. | 启动 数据 在 同一 机 架 的 任务 的 等 待 时 间 , 超 时 后 spark | 与 spark. locality. wait 
wait. rack 会 选择 数据 在 其 他 机 架 的 任务 运行 相同 
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另外 ,除了 通过 配置 上 述 数据 本 地 性 等 待 时 间 的 参数 外 ,我 们 还 可 以 从 其 他 方面 
来 提高 数据 本 地 性 任务 的 比率 。 例 如 : 当 数 据 副本 太 低 时 适当 增加 数据 的 副本 数 ; 通 
过 适当 地 使 用 cache 缓存 数据 来 提高 数据 本 地 性 级 别 为 PROCESS_LOCAL 的 任务 数 
量 ; 对 程序 本 身 进行 优化 等 。 

为 了 直观 地 展示 数据 本 地 性 对 Spark 程序 性 能 的 影响 ,我 们 利用 文本 计数 程序 设 
计 了 一 个 简单 的 实验 。 该 试验 的 输入 数据 为 一 个 大 小 30GB 的 文本 文件 data. csv ,我 
们 使 用 一 行 简单 的 代码 进行 计数 : sc. textFile("/ log/ data. csv" ). count。 为 了 实现 不 
同 的 数据 本 地 性 效果 ,我 们 配置 程序 运行 的 总 核 数 保持 为 9、 总 内 存 保持 为 9GB, 但 
Executor 数量 分 别 为 1、3 .9 ,测试 结果 如 表 6-8 所 示 。 


表 6-8 数据 本 地 性 性 能 测试 数据 














Executor | Executor | NODE | RACK. num 

Exec |. ren Mem LOCAL | LOCAL ANY 执行 时 间 
1 9 9GB 5 2 4 276 秒 
3 3 3GB 14 104 3 128 f) 
9 1 1GB m 57 0 s6p 




















从 测试 结果 我 们 可 以 看 出 ,数据 加 载 后 生成 的 RDD 一 共有 121 个 分 区 。 当 只 有 1 
个 Executor 时 , 仅 有 5 个 分 区 能 从 本 机 读 取 , 其 他 的 分 区 均 需 要 从 其 他 服务 器 上 读 取 ， 
其 中 72 个 分 区 从 同一 机 架 的 服务 器 中 读 取 ,44 个 分 区 需要 跨 机 架 读 取 。 当 Executor 
数 为 3 时 ,更 多 的 (14 个 ) 分 区 可 以 从 本 机 读 取 ,从 同一 机 架 读 取 的 分 区 数 也 增加 到 
104, 只 有 3 个 分 区 需要 跨 机 架 读 取 。 最 后 当 Executor 数 增加 到 9 时 ,可 以 看 到 有 64 个 
分 区 从 本 机 读 取 ,57 个 分 区 从 同一 机 架 的 服务 器 读 取 ,并 且 没 有 跨 机 架 读 取 的 分 区 。 
由 于 本 机 读 取 、 同 一 机 架 读 取 、 跨 机 架 读 取 数 据 的 耗 时 是 依次 递增 的 ,这 也 是 随 着 
Executor 数量 的 增加 执行 时 间 逐 渐 减 少 的 原因 。 
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Spark 中 的 内 存 使 用 分 为 两 类 : 执行 内 存 和 存储 内 存 。 执 行内 存 指 的 是 在 执行 
Shuffle、 连 接 、 排 序 和 聚集 等 操作 时 用 于 计算 的 内 存 ,而 存储 内 存 指 的 是 用 于 Cache 和 
广播 到 集群 中 的 数据 所 使 用 的 内 存 。 为 了 管理 这 两 类 内 存 ,Spark 框架 中 定义 了 以 下 
原则 : DSpark 中 执行 内 存 和 存储 内 存 共享 一 个 内 存 空间 (我 们 定义 为 M); DARA 
存储 内 存 被 使 用 时 ,Shuffle 等 操作 功能 可 以 申请 使 用 所 有 的 可 用 内 存 ; @) 当 没有 执行 
内 存 被 使 用 时 ,存储 功能 (Cache 和 广播 ) 可 以 申请 使 用 所 有 的 可 用 内 存 ; @ 在 执行 
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Shuffle 等 算 子 操作 时 ,可 能 会 在 必要 时 将 存储 内 存 清 除 以 供 算 子 操作 使 用 ,但 在 总 存 
储 内 存 中 的 一 个 指定 比例 的 内 存 空间 ( 定义 为 R) 不 受 影响 , 即 R 定义 了 M 中 一 个 固 
定 大 小 的 子 区 域 ,存储 在 该 区 域 中 的 数据 块 不 会 被 算 子 操作 功能 所 清除 ; @ 与 此 相反 ， 
在 执行 Cache 和 广播 时 ,不 能 清除 执行 内 存 中 的 数据 。 

Spark 框架 中 的 这 些 原则 确保 了 内 存 管 理 的 几 个 优良 特性 : 不 使 用 Cache 和 广 
播 的 Spark 程序 可 以 将 所 有 的 内 存 作 为 执行 内 存 , 减 少将 数据 从 内 存 溢出 到 磁盘 的 低 
效 操作 ; @) 使 用 Cache 或 广播 的 Spark 程序 可 以 保留 一 个 较 小 的 存储 空间 R, 在 这 个 空 
间 中 的 数据 块 不 会 被 清除 ; @@ 为 Spark. 程序 开发 者 提供 了 合理 的 开 箱 即 用 特性 ,开发 
者 不 需要 关心 内 存在 内 部 如 何 划分 和 管理 等 细节 操作 。 

在 Spark 的 这 一 内 存 管理 框架 下 ,我 们 在 对 Spark 程序 的 内 存 使 用 进行 优化 时 , 首 
先 需要 确定 数据 集 需 要 占用 的 存储 空间 。 为 了 确定 这 一 存储 空间 的 大 小 ,我 们 可 以 创 
建 一 个 RDD ,并 使 用 cache 算 子 将 它 缓存 在 内 存 中 ,然后 通过 WEB UI 中 的 “Storage” 标 
签 页 查看 该 RDD 占用 的 存储 空间 。 图 6-10 展示 了 一 个 RDD 使 用 的 存储 空间 实例 。 
HP“ Storage Level "一列 中 的 3 个 标签 " Memory" “ Deserialized" " 1x Replicated" , 分 别 表 
示 被 缓存 的 RDD 只 缓存 在 内 存 中 ,不 进行 序列 化 .没有 额外 的 副本 。 “ Cached 
Partitions” 一列 表示 RDD 有 11 个 分 区 被 缓存 了 。 “Fraction Cached "一 列表 示 该 RDD 
被 缓存 的 比例 。 后 面 3 列 分 别 表 示 该 RDD 存储 在 内 存 ,Tachyon 内 存 文件 系统 和 硬盘 
上 的 大 小 ,我 们 可 以 看 到 该 RDD 被 100% 缓存 了 ,同时 由 于 数据 会 被 多 份 缓存 ,所 以 
1.4GB 的 RDD 占用 了 2. 8GB 内 存 空 间 。 而 在 Tachyon 和 硬盘 上 的 占用 的 空间 大 小 均 
为 0B。 


Storage Level Cached Partitions Fraction Cached Size inMemory Sizein Tachyon Size on Disk 
Memory Deserialized 1x Replicated — 11 100% 28 GB 0.08 008 








图 6-10 Spark Shell 的 UI 中 storage 页 面 


在 完成 内 存 使 用 量 预 估 后 ,我 们 可 以 从 多 个 方面 着 手 进行 内 存 优化 。 

V 通过 数据 结构 的 设计 减少 数据 对 象 大 小 。 

在 设计 数据 对 象 的 数据 结构 时 ,我 们 要 尽量 避免 使 用 Java. 中 会 额外 增加 开销 的 数 
据 结构 ,包括 : 

(1) 优先 使 用 数组 和 基本 数据 类 型 ,而 不 是 标准 Java 或 者 Scala 的 容器 类 (如 
HashMap) 。 例 如 我 们 可 以 利用 一 个 与 Java 标准 库 兼 容 的 支持 基本 数据 类 型 的 容器 库 
fastutil( http; // fastutil. di. unimi. it/ ) 。 
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(2) 尽 可 能 避免 使 用 基于 引用 的 数据 结构 和 封装 类 型 的 对 象 ,以 及 包含 大 量 小 对 
RANG | FAVA. GON, FA Int 数组 ,而 不 是 LinkedList。 

(3) 考虑 使 用 数字 的 ID 或 者 枚 举 类 型 对 象 来 表示 Key , 而 不 是 使 用 字符 串 。 

(4) 如 果 内 存 小 于 32GB ,可 以 设置 JVM 参数 “ -XX: + UseCompressedOops” ,使 得 
引用 使 用 4 个 字 节 而 不 是 8 个 字 节 。 该 参数 可 以 在 conf spark-env. sh 中 设置 ,通过 添 
Jill" export SPARK_JAVA_OPTS =’ -XX; + UseCompressedOops” 命令 实现 。 

V 通过 序列 化 减少 数据 传输 。 

在 优化 了 对 象 的 数据 结构 后 ,如 果 Spark 程序 中 的 对 象 仍然 很 大 ,就 需要 通过 序列 
化 的 方法 减少 数据 传输 量 。 例 如 ,在 对 RDD 进行 持久 化 或 缓存 时 ,选择 包含 序列 化 选 
项 的 存储 级 别 ,如 MEMORY_ONLY_SER( 具体 参见 第 4 章 的 persist 算 子 描述 ) ,同时 建 
议 选 择 效率 更 高 的 序列 化 库 ( 例如 本 章 第 6 节 介 绍 的 Kryo) 。 

V 优化 GC. 

众所周知 , JVM 的 垃圾 回收 (Garbage Collection , GC) 是 影响 程序 性 能 的 重要 因素 。 
由 于 Spark 程序 最 终 是 转换 为 Java 程序 运行 的 ,因此 如 果 Spark 程序 中 的 RDD ,尤其 是 
会 被 多 次 使 用 的 RDD 数据 量 较 大 时 ,GC 将 成 为 影响 Spark 程序 性 能 的 重要 因素 。 为 
了 优化 GC ,我 们 首先 需要 收集 统计 信息 ,以 确定 GC 出 现 的 次 数 是 否 频繁 以 及 GC 的 
时 间 开 销 如 何 。 在 启动 程序 的 spark-submit 命令 后 面 添 参 数 “--conf spark. executor. 
extraJavaOptions = ' -verbose; gc -XX: + PrintGCDetails -XX: + PrintGCTimeStamps ' " , 这 
FÉ Executor 就 会 输出 GC 的 信息 到 Worker 节点 的 stdout 日 志 中 ,以 便 我 们 进行 有 针对 
性 的 调试 和 优化 。 在 完成 CC 统计 信息 的 收集 工作 后 ,我 们 可 以 借鉴 优化 Java 程序 
GC 的 方法 ,例如 : DH Spark 程序 执行 算 子 操作 所 使 用 的 内 存 和 缓存 的 RDD 内 存 之 
间 出 现 冲 突 时 ,可 以 通过 设置 参数 spark. storage. memoryFraction 来 控制 分 配给 RDD 2 
存 的 空间 大 小 ,以 减轻 这 个 问题 。 毕 竞 少 缓存 一 些 对 象 比 过 多 GC 而 拖 慢 整 个 作业 执 
行 的 速度 要 更 好 一 些 。@) 尽 量 使 存活 时 间 长 的 RDD 存储 在 Old 区 域 ,并 留 出 足够 的 

空间 在 Young 区 域 以 存储 生命 周期 较 短 的 对 象 ,这 样 可 以 避免 Full GC 去 回收 那些 任 
务 执行 期 间 创 建 的 临时 对 象 ,以 提高 性 能 。 

为 了 更 加 直观 地 展示 内 存 对 Spark 程序 性 能 的 影响 ,我们 设计 了 一 个 简单 的 实例 。 
我 们 生成 了 两 个 较 大 的 文件 ,其 中 分 别 包含 5 亿 和 7 亿 个 随机 产生 的 整数 ,文件 大 小 
H 3. 7GB 和 5.2GB ,文件 名 为 5y. csv Al Ty. csv。 我 们 使 用 以 下 代码 测试 GC 对 Spark 
程序 性 能 的 影响 。 
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GC 对 Spark 性 能 的 影响 示例 程序 


1: scala» val rddl =sc.textFile("/user/qinchao/input_test /5y.txt") 
rddl: org.apache.spark.rdd.RDD [String] = /user/ qinchao/ input test/ 
5y.txt MapPartitionsRDD[1]at textFile at « console >:21 
2: rddl.count 
res0: Long -500000000 
3: scala? val rdd2 = sc.textFile ("/user/qinchao/ input test/5y.txt"). 
cache() 
rdd2: org.apache.spark.rdd.RDD [String] = /user/ qinchao/ input test/ 
5y.txt MapPartitionsRDD[3]at textFile at « console >:21 
4: scala>rdd2.count 
resl: Long =500000000 
5: scala? val rdd3 =sc.textFile("/user/qinchao/ input test /7y.txt") 
rddl: org.apache.spark.rdd.RDD [String] = /user/ qinchao/ input, test / 
7y.txt MapPartitionsRDD [5]at textFile at «console >:21 
6: scala? rdd3.count 
res2: Long = 700000000 
7: scala? val rdd4 = sc.textFile ("/user/qinchao/ input test/7y.txt"). 
cache() 
rddl: org.apache.spark.rdd.RDD [String] = /user/ qinchao/ input, test / 
7y.txt MapPartitionsRDD[7]at textFile at «console >:21 
8: scala» rdd4.count 
res3: Long - 700000000 


以 上 代码 每 两 行为 一 次 测试 ,分 别 对 Sy. csv 和 Ty. csv 进行 无 缓存 和 有 缓存 的 计 
数 操作 。 在 测试 中 ,我 们 将 每 个 Executor 分 配 的 内 存 设置 为 1.3CB ,小 于 要 处 理 的 文 
件 大 小 。 测 试 结 果 如 表 6-9 所 示 。 我 们 可 以 看 到 ,在 相同 处 理 数据 量 的 情况 下 使 用 了 
Cache 的 执行 时 间 均 大 于 不 使 用 Cache 的 情况 。 其 原因 在 于 ,文件 在 Cache 后 占用 的 
内 存 空 间 是 原始 大 小 的 2~3 倍 ,在 内 存 不 足 的 情况 下 ,使 用 Cache 会 导致 过 多 的 GC 
影响 程序 执行 性 能 。 


表 6-9 GC 对 Spark 程序 性 能 的 影响 














编号 文件 是 否 Cache | 执行 时 间 1 执行 时 间 2 执行 时 间 3 ”| 平均 时 间 
1 Sy. esv 否 84 秒 59 秒 54 秒 66 f 
2 Sy. esv 是 204 fh 162 秒 156 £F 174 f 
3 Ty. esv E 132 £F 144 f 132 秒 136 f 
4 Ty. esv 是 300 £b 216 秒 180 £l 232 秒 
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6.9 集成 外 部 工具 


我 们 除了 可 以 使 用 Scala Java 和 Python 来 写 Spark 程序 之 外 ,还 可 以 使 用 其 他 语 
言 来 编写 数据 分 析 程 序 。Spark 提供 一 种 统一 的 机 制 来 将 数据 通过 管道 的 方式 传递 到 
用 户 使 用 其 他 语言 开发 的 程序 或 者 脚本 中 ,如 Perl R 语言 脚本 bash 脚本 等 ,这 种 机 制 
PN pipe 管道 。 通 过 pipe 命令 可 以 将 RDD 数据 的 每 个 分 区 传递 到 我 们 编写 的 脚本 程 
序 中 ,作为 脚本 程序 的 输入 数据 ,同时 将 结果 作为 字符 串 标准 输出 。 如 果 我 们 已 经 开 
发 了 一 些 用 其 他 语言 或 工具 编写 的 数据 处 理 程 序 或 算法 ,并 且 想 与 Spark 程序 结合 使 
用 ,我 们 就 可 以 利用 pipe 管道 来 进行 整合 。 除 管道 外 ,Spark 在 1.4 版 本 之 后 还 提供 了 
另 一 强大 组 件 一 一 SparkR。SparkR 提供 了 一 种 轻 量 级 的 方式 ,使 得 可 以 在 R 语言 中 使 
用 Spark ,以 充分 利用 R 语言 中 丰富 的 库 函 数 和 算法 。SparkR 极 大 扩展 了 使 用 Spark 
完成 和 数据 挖掘 工作 的 能 力 ,同时 也 可 以 解决 R 语言 框架 无 法 扩展 适应 大 数据 环境 的 
问题 。 

SparkR 实现 了 分 布 式 的 DataFrame ,支持 在 DataFrame 进行 查询 过滤 以 及 聚合 等 
操作 。DataFrame 是 SparkR 的 核心 数据 模型 。DataFrame 与 RDD 类 似 ,是 一 个 分 布 式 
数据 容器 。 但 DataFrame 与 RDD 又 有 所 区 别 ,在 DataFrame 中 除了 数据 之 外 还 包含 了 
数据 的 结构 信息 。 我 们 用 一 个 简单 的 网 络 流量 日 志 数 据 结构 直观 展示 RDD 与 
DataFrame 的 区 别 , 如 图 6-11 所 示 。 图 6-11(a) RDD 中 只 是 由 一 条 条 网 络 流量 日 志 构 
成 的 集合 ,这 些 记录 的 具体 字段 含义 及 结构 由 使 用 者 自己 在 Spark 程序 中 定义 和 解析 。 
图 6-11(b) 为 一 个 DataFrame 的 数据 块 , 它 不 仅 包含 了 流量 日 志 的 具体 数据 ,还 包含 了 
流量 日 志 的 格式 定义 ,包括 用 户 ID .时 间 戳 .上 行 流量 .下 行 流量 大 小 。 













































































RDD 中 记录 形式 DataFrame 数 据 记 录 形 式 
TrafficLog | userlD | timestamp | — trafficUp trafficDown 
TrafficLog 
String Double Double Double 
TrafficLog 
String Double Double Double 
String Double Double Double 
(a) (b) 


6-11. DataFrame 与 RDD 中 数据 记录 的 区 别 


DataFrame 不 仅 支持 简单 数据 结构 ,也 支持 复杂 的 典 套 数据 类 型 ,例如 Struct, Array 
和 Map。 同 时 ,DataFrame 对 代码 生成 和 内 存 管理 等 方面 都 进行 了 优化 ,使 得 SparkR 的 
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性 能 与 我 们 在 Spark 中 使 用 Scala,Java 或 Python 直接 编写 程序 的 性 能 相当 。 当 前 ， 
SparkR 的 DataFrame 已 经 支持 非常 广泛 的 数据 源 ,包括 我 们 常用 的 HDFS 文件 系统 、 
JSON 文件 .CSV „Hive 数据 等 ,同时 也 可 以 通过 JDBC 读 取 关 系 型 数据 库 或 者 通过 
Spark SQL 读 取 外 部 数据 源 。 
我 们 可 以 通过 两 种 方式 使 用 SparkR。 
V 在 操作 系统 终端 环境 下 输入 “sparkR" 命 令 启 动 一 个 sparkR shell 环境 ,系统 会 
自动 为 我 们 构建 好 SparkContent 和 SQLContent ,然后 我 们 直接 编写 要 运行 的 程 
序 代码 即 可 。 
V 如 果 是 在 程序 中 使 用 sparkR ,我 们 需要 使 用 sparkR. init 来 构建 SparkContext, 再 
将 我 们 要 用 的 其 他 配置 选项 传人 给 它 , 例 如 “sc <- sparkR. init( )”。 如 果 我 们 
要 使 用 DataFrame, 则 通过 SparkContext 构造 出 SQLContext 后 即 可 使 用 ,例如 
“sqlContext <- sparkRSQL. init(sc)”。 
下 面 我 们 以 使 用 SparkR shell 为 例 , 来 展示 下 SparkR 的 用 法 。 在 操作 系统 的 命令 
行 界面 输入 “sparkR" 命 令 后 ,我 们 依次 执行 以 下 代码 。 


SparkR shell 使 用 示例 


1: >t <-read.df(sqlContext, "/logs/accessLog", "json") 
2: >printSchema (t) 

root 

l- -userid:string (nullable = false) 

l- -timestamp :double (nullable -true) 

l- -rafficUp:double (nullable -true) 

l- - trafficDown:double (nullable =true) 


3: >head(t) 

userid timestamp trafficUp trafficDown 
ul 71 1453113613 6229 27316 
2 53 1453113613 8441 8440 
3 57 1453113613 7462 82541 
4 63 1453113613 1119 41182 
5 83 1453113613 5381 21903 
6 37 1453113613 9231 81639 


4: >registerTempTable (t, "tablel") 
5: > res <-sql(sqlContext, "SELECT count (* ) FROM table1") 
6: >head(res) 
c0 
1 378859 
7: >hiveContext <-sparkRHive.init (sc) 
8: >t<-sql(hiveContext, "show tables") 


9: > showDF (t) 


aisinoyjy 

bbb 

cb fpcgl mx 

Cb, fpcgl mx to mysql 
coc 

complain log 
customers 
customtest 

ddd 

doc 

docs 

eee 

meta keyattr der 
pokes 

pokes. praquet 
pokesnow 

regionl 
regionnum 


sample 07 


isTemporary 


-一 一 二 一 一 一 一 一 一 + 


only showing top 20 rows 
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代码 第 1 行 读 取 一 个 以 json 格式 存储 的 日 志文 件 accessLog。 代 码 第 2 行 以 树 形 


格式 输出 数据 结构 。 代 码 第 3 行 查看 文件 的 数据 结构 定义 和 前 面 的 部 分 数据 。 代 码 
第 4 行将 读 取 的 数据 注册 成 为 一 个 临时 表 tablel 。 代 码 第 5 行 统计 tablel 表 中 有 和 多少 
条 记录 ,并 存储 在 变量 res 中 。 代 码 第 6 行 输出 统计 结果 。 代 码 第 7 行 生成 一 个 
hiveContext 对 象 以 使 用 DataFrame。 代 码 第 8 行 调用 显示 数据 表 的 命令 ,并 在 代码 第 9 
行 输出 所 有 的 数据 表 。 
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